300字范文,内容丰富有趣,生活中的好帮手!
300字范文 > 图片识别文字OCR-制作可检索的PDF文档

图片识别文字OCR-制作可检索的PDF文档

时间:2021-07-05 00:58:46

相关推荐

图片识别文字OCR-制作可检索的PDF文档

好友发了个链接

怎样快速扫描一本书并做成电子版?

让我帮忙看看怎么把一本纸质书制作成可检索的PDF文档,他想用移动工具学习那本书,于是实践后整理出下面步骤。

操作系统:win10+ubuntu16.04

一 拍照

把书本和手机固定一个位置,一页页拍照下来。

这里需要注意照片像素要保持一致,图片命名按照书籍页面顺序排列,方便后期处理。

二 照片预处理

1 安装ScanTailor工具

ScanTailor下载链接

可以在Linux,Windows,macOS等等系统安装使用,这里我们选择了win10。

下载并安装 64-bit installer 0.9.11.1 ,然后打开ScanTailor。

2 使用ScanTailor对照片预处理

打开ScanTailor——New Project,然后导入你想处理的照片

按照下图的1-4点击,这里选择的是600x600。

如果照片像素不一致,会显示在“Need Fixing”里面,如图3840x5120的两张图片和其他不一致,需要更换才能进入下一步。

可以对图片进行以下6种方式的处理:

1 调整方向

2 调整页面

3 调整倾斜度

4 选择主要内容

5 边距设置

6 自动调整页面斜度和输出文件

这6种方式的操作大同小异,接下来介绍下常用的设置操作:

如图每种处理方式都可以选择应用到全部页面或者单页,

一般都选择自动优化,应用于All pages,

自动处理如果有些不满意的可以微调。

然后滚动回到第一页处理的照片,点击下图的开始按钮,即可自动处理,6种方式有6个启动按钮,需要一个个按顺序点击操作:

依次 调整方向 调整页面 调整倾斜度 选择主要内容 边距设置 后就到了最后一步:自动调整页面斜度和输出文件,这里隐藏一个强大的功能,可以把照片上倾斜的文字自动调正!下面是一张文字弯曲的照片:

按照下图步骤设置后点击启动按钮:

刚刚那页就变成这个效果,挺赞!

图片全部处理完毕就准备输出了,选择你喜欢的页面样式,有黑白,原图和混合模式,一般选择原图,按照下图设置后启动操作,就可以在project目录下的相应out目录,看到处理完成的格式为.tif的图片!

三 使用Tesseract-OCR识别图片中的文字并生成PDF

1 配置Tesseract-OCR环境

Tesseract-OCR这个工具可以在Linux,Windows,macOS等等系统上安装使用,详见官网:

tesseract-ocr官网

这里我们选择在Ubuntu16.04上配置安装,之后使用一条命令就能输出可检索的PDF文档了!

安装依赖包(Ubuntu 16.04/14.04):

sudo apt-get install g++ # or clang++ (presumably)

sudo apt-get install autoconf automake libtool

sudo apt-get install pkg-config

sudo apt-get install libpng-dev

sudo apt-get install libjpeg8-dev

sudo apt-get install libtiff5-dev

sudo apt-get install zlib1g-dev

sudo apt-get install libicu-dev

sudo apt-get install libpango1.0-dev

sudo apt-get install libcairo2-dev

安装开源图像处理分析库Leptonica

sudo apt-get install libleptonica-dev

安装tesseract

wget /tesseract-ocr/tesseract/archive/3.04.00.tar.gz

tar -zxvf 3.04.00.tar.gz

cd tesseract-3.04.00

sudo ./autogen.sh

./configure

make

make install

ldconfig

语言包下载预置

tesseract语言包下载链接

这里我们需要英文eng.traineddata和中文chi_sim.traineddata,然后拷贝到tessdata里面:

cp chi_sim.traineddata /usr/local/share/tessdata

cp eng.traineddata /usr/local/share/tessdata

环境配置完毕!

2 输出可检索PDF

先学习两个简单命令

(1) 处理一张中文图片:

a.jpg是要处理的图片,生成文件名为result0的PDF文档,如果pdf不写,默认输出.txt格式文档,注意命令的 result pdf之间是有空格的:

tesseract -l chi_sim a.jpg result0 pdf

(2) 处理一张中文+英文图片:

这里输出result1.txt

tesseract sss.png result1 -l chi_sim+eng

把ScanTailor处理后的图片制作成可检索PDF:

把刚Window上ScanTailor输出的多张.tif格式图片放入Ubuntu上文件夹booktest,然后

cd booktest

ls . > photo_list.txt

vi photo_list.txt 把里面的“photo_list.txt“删除

tesseract ./photo_list.txt book pdf

tesseract ./photo_list.txt -l chi_sim booktest pdf

大功告成,输出可检索PDF!!识别有一定的误差,但是基本可以满足需要。遇到问题,欢迎留言讨论!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。