jsoup 1.4.1下载地址发布了,关注jsoup这款优秀的html解析器的朋友可以去jsoup官方获取最新的jsoup 1.4.1下载地址下载试用。记得上次发布的jsoup是1.3.3结果一下子就直接跳到了jsoup 1.4.1,期间可见变化之大了。不过从jsoup 1.3开始就已经开始增加了对html 5特性的支持。相信在jsoup 1.4.1中会更上一层楼的吧。
jsoup是一款开源的HTML解析类库,jsoup采用纯Java编写,jsoup提供了一组方便的API,可以通过类jQuery的方法来用于抽取、操作HTML数据。通常我们操作HTML元素的时候都是以DOM的方式操作。可以直接获得DOM中的某个Element,然后分析该 Element包含有哪些属性。如果通过Java来访问,那无论是编码风格还是操作方式都有很大的变化。Java开发者面临的问题是必须通过特定的字符匹配的方式获得对应的值,或者属性。这给开发人员带来了很大的困难,或者说不习惯吧。jsoup的优势就在于可以通过 Java语言以用户最习惯的DOM的方式来访问HTML元素。这大大提高了开发效率,也降低了用户收工解析HTML带来的麻烦和容易出错的问题。 jsoup被设计用来处理所有类型的HTML文件,包括无效的标签解析和验证,为了避免解析过程的混乱,jsoup采用了一种有效的语法树的方式来处理 HTML内容。
jsoup 1.4.1主要改进包括:
- jsoup 1.4.1增加从InputStream读取并解析html的能力(方便的流读取解析api)
- jsoup 1.4.1增加了not()选择器,用于在解析过程中处理“非”的操作
- jsoup 1.4.1增加了Elements.not(String query)方法,用于处理一些无法描述的结果(仍然是“非”的操作)
- jsoup 1.4.1实现了DataNode.setWholeData(String)方法,用于更新script和style部分的内容
- jsoup 1.4.1修正了解析H1~H6嵌套的问题
- jsoup 1.4.1修正了span解析的问题
- jsoup 1.4.1修正了通过http header中content-type抽取字符的bug
- jsoup 1.4.1修正了对https的支持问题
- jsoup 1.4.1重新实现了Node.outerHtml(),支持操作没有父节点的节点
- jsoup 1.4.1修正了html内容中包含数字的的时候解析出错的问题
- jsoup 1.4.1修正了解析绝对路径的问题