图像处理 百度ocr

2019-01-09 08:55:59 qq_15029743 阅读数 3089

首先来看一下识别的效果:这里需要完整代码以及SDK的请点击此处下载:百度文字识别OCR-通用文字识别

首先需要注册百度账号并且创建对应的应用,这里具体方法如图:

访问:http://ai.baidu.com/  点击控制台

登录后创建应用:

 此处注意:图像处理中的各项功能共用的是一个SDK包,只是不同功能实现的时候使用的函数以及返回参数不同,点击完创建应用后就可以生成三个我们后期识别过程中必须使用的参数:AppID,API Key和secert key,这里我们可以点击查看应用详情来获取

 

 

 

 

至此,前期的准备工作就完成了,这时我们通过Pip或者官网直接下载SDK包,pip下载指令为:

这里支持Python版本:2.7.+ ,3.+

如果已安装pip,执行pip install baidu-aip即可。
如果已安装setuptools,执行python setup.py install即可。

接下来,在下载的SDK文档下新建Python文件,当然你也可以使用导入包的模式:

然后创建一个AipOcr(亦可以简单的理解为一个和百度的一个连接),这里代码为:

from aip import AipOcr

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

完成上述工作后我们就可以正式进入到文字识别的实现过程了,具体的官方代码为:

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()

image = get_file_content('example.jpg')

""" 调用通用文字识别, 图片参数为本地图片 """
client.basicGeneral(image);

""" 如果有可选参数 """
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"

""" 带参数调用通用文字识别, 图片参数为本地图片 """
client.basicGeneral(image, options)

url = "http//www.x.com/sample.jpg"

""" 调用通用文字识别, 图片参数为远程url图片 """
client.basicGeneralUrl(url);

""" 如果有可选参数 """
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"

""" 带参数调用通用文字识别, 图片参数为远程url图片 """
client.basicGeneralUrl(url, options)

注意:这里的一些请求参数的具体含义为:

参数名称 是否必选 类型 可选值范围 默认值 说明
image string     图像数据,base64编码,要求base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式
url string     图片完整URL,URL长度不超过1024字节,URL对应的图片base64编码后大小不超过4M,最短边至少15px,最长边最大4096px,支持jpg/png/bmp格式,当image字段存在时url字段失效
language_type string CHN_ENG
ENG
POR
FRE
GER
ITA
SPA
RUS
JAP
KOR
CHN_ENG 识别语言类型,默认为CHN_ENG。可选值包括:
- CHN_ENG:中英文混合;
- ENG:英文;
- POR:葡萄牙语;
- FRE:法语;
- GER:德语;
- ITA:意大利语;
- SPA:西班牙语;
- RUS:俄语;
- JAP:日语;
- KOR:韩语;
detect_direction string true
false
false 是否检测图像朝向,默认不检测,即:false。朝向是指输入图像是正常方向、逆时针旋转90/180/270度。可选值包括:
- true:检测朝向;
- false:不检测朝向。
detect_language string true
false
false 是否检测语言,默认不检测。当前支持(中文、英语、日语、韩语)
probability string true
false
  是否返回识别结果中每一行的置信度

在这里,博主在原有代码的基础上还将返回的具体数值写入文件以方便后期的处理,具体实现的完整代码为:

from aip import AipOcr
import json

""" 你的 APPID AK SK """
APP_ID = ''
API_KEY = ''
SECRET_KEY = ' '

client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

""" 读取图片 """
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
image = get_file_content('ocr2.jpg')

""" 如果有可选参数 """
options = {}
""" 识别语言类型 """
options["language_type"] = "CHN_ENG"
""" 检测图片朝向 """
options["detect_direction"] = "false"
""" 检测语言 """
options["detect_language"] = "false"
""" 置信度 """
options["probability"] = "false"

""" 带参数调用通用文字识别, 图片参数为本地图片 """
result=client.basicGeneral(image, options)
print(result)
result_txt=json.dumps(result,ensure_ascii=False)
file = open('result.ini', 'w')  # 打开文件
file.write(result_txt)  # 写入
file.close()

 

2019-05-10 15:51:27 weixin_41565013 阅读数 1135

      今天遇到一个问题需要解决,就是从顾客的账单(PDF格式)中通过标识提取出属性值。有两个方法来实现这个功能,一是通过PDFBox或itext先提取文字再进行位置判断,二是通过图像识别,先找到位置再进行文字的识别。第一种方法有局限性,一旦用户上传的不是PDF格式的文件,就无法进行识别,使用导师让我考虑用图像识别的方法来进行提取。

      尝试使用了一下百度的OCR识别,识别的准确率挺高的,但是无奈顾客的信息不能泄露,所以实际应用中不能使用百度OCR。只能写个博客记录一下开发过程。

 

1、创建应用

首先当然是在百度的网站上创建应用,拿到APP_ID、API_KEY和SECRET_KEY,比较简单就不多说了

2、自定义模板

因为我所需要的业务是从账单中提取所需要的内容,而且账单的格式比较固定,使用可以使用自定义模板来提取只对我有用的信息,这样做识别率和准确率会更高一些,但是缺点就是一旦模板修改就需要重新设计。

百度的自定义模板分为两块,分别是

  • 【参照字段】:图片中位置和内容都固定不变的文字后期上传的图片会以此为依据进行扭正,参照字段的选取会影响图片的识别率,建议选取8个以上的参照字段,单个参照字段内的文字不可以换行。
  • 【识别区】:需要识别的值可能出现的范围。

通过这两个区域的设置,可以对我们所需要的区域进行一个识别

3、创建AipOcr并且调用

AipOcr就是百度OCR的应用程序,通过创建AipOcr来进行识别,然后调用custom方法

public class Exemple {
	//设置APPID/AK/SK
	private static final String APP_ID = "XXXXXX";
    private static final String API_KEY = "XXXXXX";
    private static final String SECRET_KEY = "XXXXXX";
 
    public static void main(String[] args) {
        // 初始化一个AipOcr
        AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);
        // 可选:设置网络连接参数
        client.setConnectionTimeoutInMillis(2000);
        client.setSocketTimeoutInMillis(60000);

        // 可选:设置代理服务器地址, http和socket二选一,或者均不设置
        client.setHttpProxy("proxy_host", proxy_port);  // 设置http代理
        client.setSocketProxy("proxy_host", proxy_port);  // 设置socket代理

        // 可选:设置log4j日志输出格式,若不设置,则使用默认配置
        // 也可以直接通过jvm启动参数设置此环境变量
        System.setProperty("aip.log4j.conf", "path/to/your/log4j.properties");

        sample(client);
        
    }
    
    public static void sample(AipOcr client) {
        // 传入可选参数调用接口
        HashMap<String, String> options = new HashMap<String, String>();
        options.put("templateSign", "XXXXXXX");
        options.put("classifierId", "31232");
        
        String templateSign = "e751690979c6b9631834ae891c48459b";
        // 参数为本地路径
        String image = "E:/p/55/0.jpg";
        org.json.JSONObject res = client.custom(image, templateSign, options);
        System.out.println(res.toString(2));
    }
}

 

2018-09-26 21:12:18 qq_25992179 阅读数 4567

1、设置自定义模板
1.1百度文字识别 网址: http://ai.baidu.com/tech/ocr
在这里插入图片描述
1.2 点击立即使用、 登录 百度云
在这里插入图片描述

1.3 进入设置自定义模板界面
在这里插入图片描述
在 自定义模板文字识别 - 模板管理 设置模板信息(可以根据百度教程自行设置)
2、进入百度云控制台
在这里插入图片描述
2.1 创建一个应用
在这里插入图片描述
在这里插入图片描述
3、百度SDK下载网址 百度SDK

3、接口文档网址:百度java SDK 文档
3.1 java pom.xml 文件设置我使用的是4.2.0 版本sdk

<dependency>
    <groupId>com.baidu.aip</groupId>
    <artifactId>java-sdk</artifactId>
    <version>4.2.0</version>
</dependency>
public class BaiduOcrUtil {

	 //设置APPID/AK/SK
    public static final String APP_ID = "你的APP_ID";
    public static final String API_KEY = "你的API_KEY";
    public static final String SECRET_KEY = "你的SECRET_KEY";
    //

    public static void main(String[] args) {
        // 初始化一个AipOcr
        AipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);

        // 可选:设置网络连接参数
        client.setConnectionTimeoutInMillis(2000);
        client.setSocketTimeoutInMillis(60000);

        // 可选:设置代理服务器地址, http和socket二选一,或者均不设置
        //client.setHttpProxy("proxy_host", proxy_port);  // 设置http代理
        //client.setSocketProxy("proxy_host", proxy_port);  // 设置socket代理

        // 可选:设置log4j日志输出格式,若不设置,则使用默认配置
        // 也可以直接通过jvm启动参数设置此环境变量

        // 调用接口
        sample(client);
        
    }
    public static void sample(AipOcr client) {
    	long start_time=System.currentTimeMillis();
        // 传入可选参数调用接口
        HashMap<String, String> options = new HashMap<String, String>();
        
        String templateSign = "模板ID(templateSign)";
        
        // 参数为本地图片路径
        String image ="image_url";
        JSONObject res = client.custom(image, templateSign, options);
    	long end_time=System.currentTimeMillis();
    	System.out.println((end_time-start_time)/1000);
    	JSONObject data = res.getJSONObject("data");
    	JSONArray Array1 = data.getJSONArray("ret");
    	for(int i = 0; i < Array1.length(); i ++)
		{
    		JSONObject Array2=Array1.getJSONObject(i);
    		Object ob1= Array2.get("word");
    		Object ob2=Array2.get("word_name");
    		System.err.println(ob1.toString()+ob2.toString());
    		
		}
    	System.err.println(Array1);
    }
  //图片到byte数组
    public static byte[] readImageFile(String path){
      byte[] data = null;
      FileImageInputStream input = null;
      try {
        input = new FileImageInputStream(new File(path));
        ByteArrayOutputStream output = new ByteArrayOutputStream();
        byte[] buf = new byte[1024];
        int numBytesRead = 0;
        while ((numBytesRead = input.read(buf)) != -1) {
        output.write(buf, 0, numBytesRead);
        }
        data = output.toByteArray();
        output.close();
        input.close();
      }
      catch (FileNotFoundException ex1) {
        ex1.printStackTrace();
      }
      catch (IOException ex1) {
        ex1.printStackTrace();
      }
      return data;
    }
2017-04-18 23:17:23 danfeixia 阅读数 8837
转自:http://blog.csdn.net/javagirlone/article/details/47807963

闲来无事,发现百度有一个OCR文字识别接口,感觉挺有意思的,拿来研究一下。       

百度服务简介:文字识别是百度自然场景OCR服务,依托百度业界领先的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。

不多说啦,直接看demo吧!偷笑

[java] view plain copy
 print?
  1. package com.oa.test;  
  2.   
  3. import java.io.BufferedReader;  
  4. import java.io.File;  
  5. import java.io.InputStream;  
  6. import java.io.InputStreamReader;  
  7. import java.net.HttpURLConnection;  
  8. import java.net.URL;  
  9.   
  10. import com.oa.commons.util.BASE64;  
  11.   
  12. public class OCRTest {  
  13.   
  14.     public static String request(String httpUrl, String httpArg) {  
  15.         BufferedReader reader = null;  
  16.         String result = null;  
  17.         StringBuffer sbf = new StringBuffer();  
  18.   
  19.         try {  
  20.             URL url = new URL(httpUrl);  
  21.             HttpURLConnection connection = (HttpURLConnection) url  
  22.                     .openConnection();  
  23.             connection.setRequestMethod("POST");  
  24.             connection.setRequestProperty("Content-Type",  
  25.                     "application/x-www-form-urlencoded");  
  26.             // 填入apikey到HTTP header  
  27.             connection.setRequestProperty("apikey""您自己的apikey");  
  28.             connection.setDoOutput(true);  
  29.             connection.getOutputStream().write(httpArg.getBytes("UTF-8"));  
  30.             connection.connect();  
  31.             InputStream is = connection.getInputStream();  
  32.             reader = new BufferedReader(new InputStreamReader(is, "UTF-8"));  
  33.             String strRead = null;  
  34.             while ((strRead = reader.readLine()) != null) {  
  35.                 sbf.append(strRead);  
  36.                 sbf.append("\r\n");  
  37.             }  
  38.             reader.close();  
  39.             result = sbf.toString();  
  40.         } catch (Exception e) {  
  41.             e.printStackTrace();  
  42.         }  
  43.         return result;  
  44.     }  
  45.   
  46.     <pre name="code" class="java">/** 
  47.      * @param args 
  48.      */  
  49.     public static void main(String[] args) {  
  50.         File file = new File("d:\\che4.jpg");  
  51.         String imageBase = BASE64.encodeImgageToBase64(file);  
  52.         imageBase = imageBase.replaceAll("\r\n","");  
  53.         imageBase = imageBase.replaceAll("\\+","%2B");  
  54.         String httpUrl = "http://apis.baidu.com/apistore/idlocr/ocr";  
  55.         String httpArg = "fromdevice=pc&clientip=10.10.10.0&detecttype=LocateRecognize&languagetype=CHN_ENG&imagetype=1&image="+imageBase;  
  56.         String jsonResult = request(httpUrl, httpArg);  
  57.         System.out.println("返回的结果--------->"+jsonResult);  
  58.   
  59.     }  


[java] view plain copy
 print?
  1. /** 
  2.  * 将本地图片进行Base64位编码 
  3.  *  
  4.  * @param imgUrl 
  5.  *            图片的url路径,如d:\\中文.jpg 
  6.  * @return 
  7.  */  
  8. public static String encodeImgageToBase64(File imageFile) {// 将图片文件转化为字节数组字符串,并对其进行Base64编码处理  
  9.     // 其进行Base64编码处理  
  10.     byte[] data = null;  
  11.     // 读取图片字节数组  
  12.     try {  
  13.         InputStream in = new FileInputStream(imageFile);  
  14.         data = new byte[in.available()];  
  15.         in.read(data);  
  16.         in.close();  
  17.     } catch (IOException e) {  
  18.         e.printStackTrace();  
  19.     }  
  20.   
  21.     // 对字节数组Base64编码  
  22.     BASE64Encoder encoder = new BASE64Encoder();  
  23.     return encoder.encode(data);// 返回Base64编码过的字节数组字符串  
  24. }  
附件:(che4.jpg)

运行后结果:

{"errNum":"0","errMsg":"success","querySign":"2289891521,4081625058","retData":[{"rect":{"left":"32","top":"15","width":"418","height":"118"},"word":"\u8c6bC88888"},{"rect":{"left":"45","top":"137","width":"373","height":"18"},"word":"\u4e1c\u98ce\u672c\u7530\u6d1b\u9633\u952e\u901a\u5e97\u7535\u8bdd\uff1a03796358222"}]}

注意:将此结果放到 在线JSON校验格式化工具中(http://www.bejson.com/)会得到你想要的结果:

[plain] view plain copy
 print?
  1. {  
  2.     "errNum": "0",  
  3.     "errMsg": "success",  
  4.     "querySign": "2289891521,4081625058",  
  5.     "retData": [  
  6.         {  
  7.             "rect": {  
  8.                 "left": "32",  
  9.                 "top": "15",  
  10.                 "width": "418",  
  11.                 "height": "118"  
  12.             },  
  13.             "word": "豫C88888"  
  14.         },  
  15.         {  
  16.             "rect": {  
  17.                 "left": "45",  
  18.                 "top": "137",  
  19.                 "width": "373",  
  20.                 "height": "18"  
  21.             },  
  22.             "word": "东风本田洛阳键通店电话:03796358222"  
  23.         }  
  24.     ]  
  25. }  
怎么样,感觉很神奇吧,感兴趣的试一下吧!吐舌头
最后,解释一下几个参数的含义:

apikey:API密钥 也就是您自己的apikey


fromdevice:来源,例如:Android、iPhone 默认是PC


clientip:客户端出口IP


detecttype:OCR接口类型


languagetype:要检测的文字类型


imagetype:图片资源类型


image:图片资源,目前仅支持jpg格式

2018-07-16 17:01:00 zh_1721342390 阅读数 752

调用百度OCR API实现身份证文字识别

通过调用百度OCR的两个接口,实现身份证图像识别。

首先要在百度云注册账号,并创建应用,以获取AppID,API Key,Secret Key。

官网文字识别模块地址:https://cloud.baidu.com/product/ocr.html

点击文字识别

创建应用

 

 之后就可以使用相关接口了,这里我们使用的是身份证识别

附上身份证识别文档地址:https://cloud.baidu.com/doc/OCR/OCR-API.html#.E8.BA.AB.E4.BB.BD.E8.AF.81.E8.AF.86.E5.88.AB

代码:

<!DOCTYPE html>
<html>
    <head>
        <meta charset="UTF-8">
        <title></title>
    </head>
    <body>
        <input type="file" id="img" onchange="getImg(event)" />
        <img id="showImg" src="" />
    </body>
    <script type="text/javascript" src="jquery-3.3.1.min.js" ></script>
    <script>
        var access_token = "这里填写你的access_token";
        // 监听图片选择事件
        function getImg (event) {
            var imageBase = "";
            var reader = new FileReader();
            reader.readAsDataURL(event.target.files[0]);
            reader.onload = function (e) {
                imageBase = e.target.result.replace("data:image/png;base64,","");
                $("#showImg").prop("src", "data:image/png;base64," + imageBase);
                $.ajax({
                    header: {
                        "Content-Type": "application/x-www-form-urlencoded"
                    },
                    type: "post",
                    url: "https://aip.baidubce.com/rest/2.0/ocr/v1/idcard",
                    async: true,
                    data: {
                        access_token: access_token,
                        id_card_side: "front",
                        image: imageBase
                    },
                    dataType: "json",
                    timeout: 30000,
                    success: function (data) {
                        console.log("解析成功");
                        console.log(data);
                    },
                    error: function (xhr) {
                        console.log("请求解析失败");
                    }
                });
            }
        }
    </script>
</html>

最终效果图:

 

posted @ 2018-07-16 17:01 花生福 阅读(...) 评论(...) 编辑 收藏