Xpdf是一个免费的PDF查看器和工具包,包括文本提取器,图像转换器,HTML转换器等。 大多数工具都可以作为开源使用。
Xpdf解析中文,支持中文字体配置 xpdfrc
#----- begin Chinese Simplified support package (2011-sep-02) cidToUnicode Adobe-GB1 ./chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN ./chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN ./chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK ./chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 ./chinese-simplified/CMap toUnicodeDir ./chinese-simplified/CMap #fontFileCC Adobe-GB1 /usr/..../NotoSansCJKsc-Regular.otf #----- end Chinese Simplified support package fontFile Symbol ./xpdf-t1fonts/s050000l.pfb fontFile ZapfDingbats ./xpdf-t1fonts/d050000l.pfb #fontDir ./fonts
常用的命令:
// 提取pdf文字,支持中文 ./pdftotext.exe -layout -enc GBK 22.pdf 22.txt // 生成png图片 ./pdftopng.exe -freetype yes 22.pdf 22.png // 生成html文档 ./pdftohtml.exe -allinvisible 22.pdf 33
官网:http://www.xpdfreader.com/download.html