20220817-PDF文件处理提示

PDF文件处理小提示

  1. 获取PDF元数据,需要使用poppler库下面的pdfinfo命令:

D:>pdfinfo test.pdf
Producer: Feisty Duck Digital Delivery Service
CreationDate: 08/19/13 17:40:44
ModDate: 08/19/13 17:40:44
Tagged: no
Pages: 367
Encrypted: no
Page size: 535.68 x 697.44 pts
File size: 2101334 bytes
Optimized: no
PDF version: 1.4
2. 查看PDF中所使用到的字体,需要使用poppler库下面的pdffonts命令:

D:>pdffonts test.pdf
name type emb sub uni object ID


FZPJCT+FreeSans CID TrueType yes yes yes 1 0
BKUKSQ+NimbusSanL-Regu Type 1 yes yes no 755 0
QRYPKX+CMSY10 Type 1 yes yes no 762 0
ZLHPUU+CenturySchL-Roma Type 1 yes yes no 763 0
ZCSUFP+CenturySchL-Bold Type 1 yes yes no 764 0
[none] Type 3 yes no no 765 0
KSECLT+TradeGothic-CondEighteen Type 1C yes yes no 8 0
WLDBEZ+CenturySchL-Ital Type 1 yes yes no 768 0
JGPJSJ+NimbusSanL-Bold Type 1 yes yes no 773 0
KINSVY+CenturySchL-BoldItal Type 1 yes yes no 819 0
UMGSAF+CMR10 Type 1 yes yes no 820 0
GNTWCJ+CMR7 Type 1 yes yes no 821 0
MASRIW+CMMI10 Type 1 yes yes no 824 0
JEHZIM+CMMI7 Type 1 yes yes no 861 0
GBDQPA+CMSY7 Type 1 yes yes no 862 0
[none] Type 3 yes no no 935 0
[none] Type 3 yes no no 1086 0
[none] Type 3 yes no no 1110 0
YJJVSC+Helvetica Type 1C yes yes no 2043 0
[none] Type 3 yes no no 1522 0

  1. 抽取PDF中的文本,使用poppler中的pdftotext:

pdftotext test.pdf
4. 将PDF转换为PS/EPS,使用poppler中的pdftops:

pdftops test.pdf # to PS
pdftops -eps test.pdf # to EPS
5. 将PDF转换为JPEG/PNG,使用poppler中的pdfimages或MuPDF中的mudraw(强烈推荐):

pdfimages -f 1 -j test.pdf test # 转换为jpg,但在Windows下有bug
mudraw -r 600 -o test-%d.png test.pdf # 转换为PNG,分辨率为600
6. 将PDF中嵌入的字体和图片提取出来,使用MuPDF中的mutool(旧版本为mubusy):

mutool extract test.pdf
7. 解压PDF,需要使用上面的工具,这对开发者优化PDF输出很有帮助:

mutool clean -d test.pdf
8. 抽取PDF中的某一页,使用pdftk操作:

pdftk test.pdf cat 1-2 output z.pdf # 抽取1-2页,保存为z.pdf
9. 翻转PDF中的某一页,使用pdftk操作:

pdftk test.pdf cat 4-4east output z.pdf
工具下载地址:

ftp://ftp.foolabs.com/pub/xpdf/xpdfbin-win-3.04.zip (TeX Live中自带)
http://www.mupdf.com/downloads/mupdf-1.4-windows.zip
PDFtk - The PDF Toolkit (注意,现在的PDFtk提供了一个GUI界面,但是需要注册,可以选用第三方的,比如Homepage, PDF Tools from Dirk Paehl)

打赏
  • 版权声明: 本博客所有文章除特别声明外,著作权归作者所有。转载请注明出处!

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2015-2024 TeX_baitu
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~