300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 使用AI技术获取图片文字与识别图像内容

使用AI技术获取图片文字与识别图像内容

时间:2023-12-22 00:05:38

相关推荐

使用AI技术获取图片文字与识别图像内容

获取图片文字

如何使用python获取图片文字呢?

关注公众号【轻松学编程】了解更多…

1、通过python的第三方库pytesseract获取

通过pip install pytesseract导入。

1.1、安装tesseract-ocr

先在官网 下载对应操作系统的tesseract-ocr,比如我现在在windows系统下,就下载exe文件安装,可点击这里下载,下载后运行exe后选择一个目录安装,这个目录需要记住,后面中需要用到,比如我的目录为D:\ruanjian\Tesseract-OCR

1.2 下载训练好的语言包

地址 ,这里想提取图片中的中文字,于是下载chi_sim.traineddata,下载到上面安装tesseract-ocr目录中的文件夹tessdata中,如图:

1.3 代码

import pytesseractfrom PIL import Image# 打开一张图片image = Image.open(r'images\82-望岳.png')pytesseract.pytesseract.tesseract_cmd = r'D:\ruanjian\Tesseract-OCR\tesseract.exe'tessdata_dir_config = r'--tessdata-dir "D:\ruanjian\Tesseract-OCR\tessdata"'# 提取中文,如果是提取英文,则先下载语言包,然后设置以下参数lang='eng'即可。code = pytesseract.image_to_string(image, lang='chi_sim', config=tessdata_dir_config)print(code)

比如我需要提取以下图片文字:

处理结果:

这种方式优点就是可以无限次运行,只要配置好电脑环境就可以,缺点就是不能混语言。比如图片中夹杂中文与英文,提取效果就不是很好。

2、使用百度接口

先到百度智能云 创建一个应用获取APP_ID、API_KEY、SECRET_KEY

然后下载python的SDK,下载后使用pip install aip-python-sdk-2.2.15.zip安装

import base64import requestsimport timeimport astfrom aip import AipOcr# https://console./ai/#/ai/ocr/overview/index""" 你的 APPID AK SK """APP_ID = '你的' API_KEY = '你的'SECRET_KEY = '你的'# 百度api客户端CLIENT = AipOcr(APP_ID, API_KEY, SECRET_KEY)# 请求头HEADERS = {'Content-Type': 'application/x-www-form-urlencoded'}# 获取令牌的urlURL = '/oauth/2.0/token'ACCESS_TOKEN = None# 用于记录获取令牌的开始时间SRART_TIME = time.time()def get_file_content(filePath):# 获取文件内容with open(filePath, 'rb') as fp:return fp.read()def get_access_token():# 获取令牌global ACCESS_TOKEN, SRART_TIME, URLresponse = requests.post(URL,{'grant_type': 'client_credentials', 'client_id': API_KEY, 'client_secret': SECRET_KEY})ACCESS_TOKEN = ast.literal_eval(response.content.decode('utf-8'))['access_token']SRART_TIME = time.time()def req_url(image):# 调用百度AI接口获取图像识别后的内容,调用接口次数为每日5万次global ACCESS_TOKEN, SRART_TIME, HEADERSif not ACCESS_TOKEN or (time.time() - SRART_TIME > 7000):get_access_token()response = requests.post('/rest/2.0/ocr/v1/general_basic?access_token=%s' % ACCESS_TOKEN,{'image': image}, headers=HEADERS)return response.content.decode('utf-8')if __name__ == '__main__':# 图片内容image = get_file_content(r'image\望岳.png')# 获取分析结果ret = req_url(base64.b64encode(image).decode())# 字符串转字典ret = ast.literal_eval(ret)if 'words_result' in ret:for words in ret['words_result']:print(words['words'])

输出:

使用场景

可以利用这些图片识别给名片分类、获取图片上的关键信息、车牌识别等。

后记

【后记】为了让大家能够轻松学编程,我创建了一个公众号【轻松学编程】,里面有让你快速学会编程的文章,当然也有一些干货提高你的编程水平,也有一些编程项目适合做一些课程设计等课题。

也可加我微信【1257309054】,拉你进群,大家一起交流学习。

如果文章对您有帮助,请我喝杯咖啡吧!

公众号

156789.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2xtX2lzX2Rj,size_16,color_FFFFFF,t_70)

关注我,我们一起成长~~

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。