uPDF功能强大的PDF文件处理工具附离线OCR语言文件

行业软件 2020-07-18 11:44:39

uPDF功能强大的PDF文件处理工具附离线OCR语言文件

前几天因为工作原因,需要将一个PDF压缩一下。
关于使用:
1、去水印功能:去水印有默认模式和手动模式两种,一些图片水印或文字水印,本身含有“水印的标签”,此类水印可使用默认模式去除,某些水印图片或水印文字是通过非常规方法加入到PDF中的,本身不含有“水印标签”,对于此类水印,只能使用手动模式自行分析后去除。另外,有些PDF文件在同一位置加了多层水印,手动模式一次去除不干净,需要多次手动去除。同时有些水印加的比较“特别”,无法一步到位全去除,可以通过组合方式,例如先用模式1,再用模式2等,多步完成,这样做是为了将不同逻辑单独拆分,并通过多种组合的方式来使用更复杂情况的水印。

2、OCR功能:在2.1及以后版本中重新设计了OCR功能,包括在线和离线两种方式,在线OCR使用了百度的接口,每日有5万次免费调用,超出后请第二天使用,后续考虑加入自定义key的功能,可用自己的key。离线OCR适合重要\保密PDF的文字识别,或无网络情况下的文字识别,请在下方的网盘中下载相关语言资源包,并按下图放置。未按此方式放置的,无法使用。

3、内存不足:在使用去水印功能或PDF压缩功能时,由于需要大量计算、分析,因此内存占用较高,而32位版应用在64位系统下运行时,默认最大可以使用2GB内存。因此即便系统内存有闲置,软件也无法调用到,容易出现“明明系统很多内存,为什么还报内存不足”。因此推出64位版本解决该问题。

网上找了半天,要么收费,要么就是转换的质量不太好。
也找到一些破解的软件,但是总有点不太合适,有些功能还挺复杂。
也有些在线转换的,又考虑到自己较为隐私的pdf文件不想上传,不得已只能放弃。
索性自己写了个小工具,使用了网上的一些PDF类库,感谢提供类库的各位大神了。

主要功能:
.PDF压缩
.PDF转word/excel/ppt/图片
.PDF文件中图片提取
.PDF文件合并/拆分
.OCR文字识别
.PDF文件去水印
.图片转PDF
.PDF去保护

1月9日更新 1.3 版本:
本次更新加入去水印功能,可一次性直接去除文字和图片水印。有些所谓的“水印”其实是扫描件里和扫描图相融为一体的,可以理解为水印图层和图像图层合二为一,这种就没办法去除了。
考虑到文件大小,依然发布两个版本,含OCR和不含OCR,可自行选择下载。
ps:ocr版本依然只上传了百度云。

1月16日更新 1.4版本:
本次更新加入pdf文件合并功能,并修复了PDF文件图片提取、PDF转图片功能中,因为图片文件名重名可能导致的文件覆盖问题。

3月6日更新 1.5版本:
本次更新修复了PDF文件合并功能中输出文件名因同名导致的错误。

3月9日更新 1.6版本:
本次更新 新增了图片转换PDF功能,支持多图片文件合并转换PDF,也支持单图片文件转换PDF。

3月27日更新 1.7.1版本:
本次更新,优化了去水印功能,可手动分析文字及图片水印并去除。

4月3日更新 1.7.2版本:
本次更新,优化了去除图片水印功能,增加了水印扫描模式,更智能的识别水印图片。

4月8日更新 1.7.3版本:
本次更新,优化了去文字水印功能,增加文字扫描模式,更智能的识别文字水印。

4月10日更新 1.7.5版本:
不要问为什么没有1.7.4,因为这个版本我没发布,只做了内测。本次更新优化了文字去水印功能,去除部分超链接。
整体上去水印功能就告一段落了。水印的形式各种各样,无法做到一个程序解决市面上所有的水印,只能尽可能的覆盖各种情况。
希望能成为市面上最好用的小工具。

4月13日更新 1.8版本:
新增权限解密功能,恢复PDF文件复制、编辑、打印等权限,并非破解PDF文件打开密码。

4月22日更新 1.8.1版本:
文件合并、图片转PDF中,增加文件多选功能,方便多文件添加。

4月23日更新 1.8.3版本:
优化超大文件去水印时报错及速度,363M文件去水印时,原先耗时10分钟,现在耗时十几秒。

6月3日更新 1.8.5版本:
坛友说要有拖拽功能,于是就有了拖拽功能 。

6月4日更新 1.8.7版本:
修复去水印功能按钮丢失bug 。

6月5日更新 1.8.8版本:
修复去水印功能中的一处bug,修改批量添加文件时按名称排序。

6月10日更新 1.8.9版本:
修复去水印功能中的一处bug。

6月11日更新 1.9.0版本:
1、修复pdf压缩功能失效的问题;
2、重构大量代码,精简大量资源文件,大幅缩小文件体积;3、继续优化去水印功能。

7月2日更新 2.0版本:
1、优化PDF文件压缩功能;
2、加入自动更新功能;

7月8日更新 2.1版本:
1、优化图片转PDF功能,解决图片被拉伸问题;
2、加入OCR识别功能,可使用在线(每日5万次调用额度)及离线方式识别PDF文字,使用离线OCR功能时需下载语言资源文件至指定目录,详细放置方式见上方“关于使用”;

7月9日更新 2.1.1版本:
1、编译32位和64位两个版本,64位版本可充分利用系统可用内存,在使用去水印及PDF压缩时不再出现内存不足问题;
2、继续优化图片转PDF功能;

7月11日更新 2.2版本:
1、优化文字水印扫描,增加模式4,更加智能;
2、调整文件服务器,自动更新可调用用户下载工具(IDM、迅雷等),下载速度更快(实测1m/s以上)--从2.2版本开始;