摘要:
最近需要使用到对PDF文件内容进行解析,然后对文件的部分内容进行索引查询.在解析的PDF的时候Java语言有2个
开源的PDF工具:PDFbox和Itext.
PDFbox和Itext都能读取、解析pdf文件,并且可对文件进行修改.有小伙伴将2个工具对比总结出以下结论:
在读取和解析PDF的时候使用PDFBox,较为简单,示例较为详细;修改PDF的时候使用Itext,支持粒度较细,比如控制文字字体等
Itext
iText是著名的开放项目,是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件等.目前只是用到对PDF文档的解析,所以对于Itext具体使用暂未查看,
官网:https://itextpdf.com/
插入文字可以自定义字体,使用字库文件(ttf)
PDFBox
引入PDFBox工具库jar
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.15</version> <!--当前使用2.0.15的版本-->
</dependency>
编写PDFUtils类
1 | import org.apache.pdfbox.cos.COSName; |
调用PDFUtils类方法
1 |
|