Tika 0.6 发布-下载

  Tika官方站点发布了Tika 0.6下载地址,关注Tika项目的朋友可以直接从官方网站下载最新版的Tika 0.6使用了。Tika是一个用于从结构化文档中扫描,抽取内容的工具包,Tika采用Java语言编写,底层使用的类库也都是Java开源界赫赫有名的工具类库,例如POI,Lucene等。既然我们有了Lucene,有了POI,为什么还需要Tika呢?自己编写一个不就可以了?笔者觉得Tika本身就是apache Lucene项目下的一个子项目,因此其全文检索方面的功能来自于Lucene,其功力可见一斑。其次,Tika针对所有支持的格式提供了同一的操作界面和开发接口,让开发者可以用统一的方式对所有支持的文件格式进行操作,而不必单独为每种特殊的格式编写独立的代码。Tika封装了多种数据文件格式操作的细节,让开发者集中精力在开发外部业务逻辑上,而不是集中在如何处理文件内容的抽取和操作上。从以上两点来看,Tika带给开发和使用者的是效率和速度的提升,这在现在软件开发流程中,尤其是在敏捷软件开发过程中是十分有优势的。(笔者个人观点。。。)

Tika 0.6 支持的文件格式包括:

  1. Tika 0.6支持HTML格式的文件,Tika内部通过TagSoup支持HTML文件的解析和检索抽取
  2. Tika 0.6支持XML文件,Tika内置了一个XML解析器DcXMLParser ,以此解析XML文件
  3. Tika 0.6支持MS Document 格式(包括OOXML格式Office 2007采用的文件格式),当然这依赖于大名鼎鼎的POI
  4. Tika 0.6支持OpenDocument文件格式,Tika内置了OpenDocument解析器
  5. Tika 0.6支持PDF格式的文档,tika底层采用apache PDFBox类库对PDF文档进行支持
  6. Tika 0.6支持EPUB格式的文档
  7. Tika 0.6支持RTF格式的文档
  8. Tika 0.6支持压缩文档,底层通过Commons Compress类库对压缩文件支持(bzip2, tar 和 zip 等)
  9. Tika 0.6支持TXT文件,底层通过ICU项目进行支持
  10. Tika 0.6支持一些通用的音频格式,甚至可以抽取出歌词和音频文件中的内容信息,tika底层使用标准的javax.sound类库,同时支持MP3文件格式。
  11. Tika 0.6支持图片格式,底层使用javax.imageio库操作图片,
  12. Tika 0.6支持视频格式文件,不过目前Tika 0.6之支持flash格式的文件抽取和检索
  13. Tika 0.6支持Java class文件的检索和jar文件的检索和抽取
  14. Tika 0.6支持mbox格式的文件

Tika 0.6 主要包括如下变更:

  1. Tika 0.6 升级到POI类库到3.6 版本,该版本可显著的减小 ooxml jar包的大小
  2. Tika 0.6增加对Excel单元格日期类型和数值类型的单元格格式的支持
  3. Tika 0.6改进对Excel文档中的计算公式支持
  4. Tika 0.6采用新的OSGi 模块来引入所有解析库
  5. Tika 0.6改进了对HTML文档的编码处理,支持HTML文档中的元素编码定义
  6. Tika 0.6改进了对 HTML 的 Mime-type 检测
  7. Tika 0.6默认使用 UTF-8 输出信息
  8. Tika 0.6增加对 Flash 视频 (video/x-flv) 的解析器

Tika 0.6下载地址:
Tika 0.6下载

摘自:开源中国社区
[ad#468-60]

Scroll to Top