.net下如何将文档文件(Word, Pdf等) 文本提取出来

C# 2022-02-11 14:37:18

.net下如何将文档文件(Word, Pdf等) 文本提取出来本实例在开发中有用的可以参考,Java 版本的 lucence 提供了一个 tika 的工具用于将 word, excel, pdf 等文档转换为文本,然后进行索引。但这个工具没有 .net 版本,要在 .net 下用,需要用 IKVM.net,很麻烦。而且这个工具实际上底层是调用 POI 和 PDFParse 来转换的。