300字范文 > 图片识别文字OCR-制作可检索的PDF文档

图片识别文字OCR-制作可检索的PDF文档

时间：2021-07-05 00:58:46

好友发了个链接

怎样快速扫描一本书并做成电子版?

让我帮忙看看怎么把一本纸质书制作成可检索的PDF文档，他想用移动工具学习那本书，于是实践后整理出下面步骤。

操作系统：win10+ubuntu16.04

一拍照

把书本和手机固定一个位置，一页页拍照下来。

这里需要注意照片像素要保持一致，图片命名按照书籍页面顺序排列，方便后期处理。

二照片预处理

1 安装ScanTailor工具

ScanTailor下载链接

可以在Linux,Windows,macOS等等系统安装使用，这里我们选择了win10。

下载并安装 64-bit installer 0.9.11.1 ，然后打开ScanTailor。

2 使用ScanTailor对照片预处理

打开ScanTailor——New Project，然后导入你想处理的照片

按照下图的1-4点击，这里选择的是600x600。

如果照片像素不一致，会显示在“Need Fixing”里面，如图3840x5120的两张图片和其他不一致，需要更换才能进入下一步。

可以对图片进行以下6种方式的处理：

1 调整方向

2 调整页面

3 调整倾斜度

4 选择主要内容

5 边距设置

6 自动调整页面斜度和输出文件

这6种方式的操作大同小异，接下来介绍下常用的设置操作：

如图每种处理方式都可以选择应用到全部页面或者单页，

一般都选择自动优化，应用于All pages，

自动处理如果有些不满意的可以微调。

然后滚动回到第一页处理的照片，点击下图的开始按钮，即可自动处理，6种方式有6个启动按钮，需要一个个按顺序点击操作：

依次调整方向调整页面调整倾斜度选择主要内容边距设置后就到了最后一步：自动调整页面斜度和输出文件，这里隐藏一个强大的功能，可以把照片上倾斜的文字自动调正！下面是一张文字弯曲的照片：

按照下图步骤设置后点击启动按钮：

刚刚那页就变成这个效果，挺赞！

图片全部处理完毕就准备输出了，选择你喜欢的页面样式，有黑白，原图和混合模式，一般选择原图，按照下图设置后启动操作，就可以在project目录下的相应out目录，看到处理完成的格式为.tif的图片！

三使用Tesseract-OCR识别图片中的文字并生成PDF

1 配置Tesseract-OCR环境

Tesseract-OCR这个工具可以在Linux,Windows,macOS等等系统上安装使用，详见官网：

tesseract-ocr官网

这里我们选择在Ubuntu16.04上配置安装，之后使用一条命令就能输出可检索的PDF文档了！

安装依赖包(Ubuntu 16.04/14.04):

sudo apt-get install g++ # or clang++ (presumably)

sudo apt-get install autoconf automake libtool

sudo apt-get install pkg-config

sudo apt-get install libpng-dev

sudo apt-get install libjpeg8-dev

sudo apt-get install libtiff5-dev

sudo apt-get install zlib1g-dev

sudo apt-get install libicu-dev

sudo apt-get install libpango1.0-dev

sudo apt-get install libcairo2-dev

安装开源图像处理分析库Leptonica

sudo apt-get install libleptonica-dev

安装tesseract

wget /tesseract-ocr/tesseract/archive/3.04.00.tar.gz

tar -zxvf 3.04.00.tar.gz

cd tesseract-3.04.00

sudo ./autogen.sh

./configure

make

make install

ldconfig

语言包下载预置

tesseract语言包下载链接

这里我们需要英文eng.traineddata和中文chi_sim.traineddata，然后拷贝到tessdata里面：

cp chi_sim.traineddata /usr/local/share/tessdata

cp eng.traineddata /usr/local/share/tessdata

环境配置完毕！

2 输出可检索PDF

先学习两个简单命令

(1) 处理一张中文图片：

a.jpg是要处理的图片，生成文件名为result0的PDF文档，如果pdf不写，默认输出.txt格式文档，注意命令的 result pdf之间是有空格的：

tesseract -l chi_sim a.jpg result0 pdf

(2) 处理一张中文+英文图片：

这里输出result1.txt

tesseract sss.png result1 -l chi_sim+eng

把ScanTailor处理后的图片制作成可检索PDF：

把刚Window上ScanTailor输出的多张.tif格式图片放入Ubuntu上文件夹booktest，然后

cd booktest

ls . > photo_list.txt

vi photo_list.txt 把里面的“photo_list.txt“删除

tesseract ./photo_list.txt book pdf

tesseract ./photo_list.txt -l chi_sim booktest pdf

大功告成，输出可检索PDF！！识别有一定的误差，但是基本可以满足需要。遇到问题，欢迎留言讨论！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

图片识别文字OCR-制作可检索的PDF文档

一 拍照

二 照片预处理

1 安装ScanTailor工具

2 使用ScanTailor对照片预处理

可以对图片进行以下6种方式的处理：

三 使用Tesseract-OCR识别图片中的文字并生成PDF

1 配置Tesseract-OCR环境

安装依赖包(Ubuntu 16.04/14.04):

安装开源图像处理分析库Leptonica

安装tesseract

语言包下载预置

2 输出可检索PDF

先学习两个简单命令

把ScanTailor处理后的图片制作成可检索PDF：

大功告成，输出可检索PDF！！识别有一定的误差，但是基本可以满足需要。遇到问题，欢迎留言讨论！

一拍照

二照片预处理

三使用Tesseract-OCR识别图片中的文字并生成PDF