tagparserPython的HTML文档解析

联合创作 · 2023-09-22 00:01

很多人需要提取网页的一些内容, 可以利用正则表达式提取,也可以用beautifulsoap等工具. 正则表达式方法速度快,缺点是不好找到匹配的正则. 其他类似beautiful的工具因为要全面分析html,而html不像xml那么严格,语法比较复杂所以效率很糟糕.这个工具就是为了处里这种问题的.

这个工程只有一个文件 .tagparser.py 它可以方便分析像xml html 等这种标记语言. 只要他是'<'和'>'括起来的标记语言.

分析的方式是'抽'式的.也就是说扫描一个个字符当遇到一个tag时也就是遇到一个<>的时候,回调一个函数onGetTag() ,可以重载这个函数做自己的处理.

如遇到

回调 onGetTag(tagstr, tagstro). tagstr = p tagstro = P tagstr 是小写的tag tagstro是源文件的大小写状态

遇到内容回调 onGetTxt(txtstr) , txtstr是如:<tag>xxxxxxxxx</tag> xxxxx即内容

使用例子,提取网易新闻页的主要内容,新闻标题,内容主体: 例如:

p = TagParser()
p.fetchUrl('http://news.163.com/09/0117/04/4VR79MP60001124J.html')
p.printResult()

输出一个网页的新闻.

浏览 17

点赞

收藏

分享

举报

评论

图片

表情

htmlspriteFlash的HTML解析

htmlsprite 是一个 Flash 用来解析 HTML 文档的开发包。示例代码：import

afterworkC#的HTML解析

afterwork是一个C#语言用来解析HTML文档的开发包。

htmlspriteFlash的HTML解析

htmlsprite是一个Flash用来解析HTML文档的开发包。示例代码：importcom.redurban.HTMLSpritevarhtmlsprite:HTMLSprite=newHTMLS

wiseparserPHP的HTML解析

wiseparser 是一个 PHP 语言用来解析 HTML 文档的开发包。示例代码：require

mechanizePython的HTML解析

当您希望与Web页面中找到的内容进行某种比较复杂的交互时，您需要使用mechanize库示例代码：importrefrommechanizeimportBrowserbr=Browser()br.op

wiseparserPHP的HTML解析

wiseparser是一个PHP语言用来解析HTML文档的开发包。示例代码：require_once('treebuilder.php');$mytree=newTree();<br>$m

mechanizePython的HTML解析

当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时，您需要使用 mechanize 库示例

jScraperJava的HTML解析包

jScraper提供了简单的接口用来解析HTML文本，它将HTML文本转成Java的对象。查看jScraper的JavaDoc文档：http://sharkysoft.com/software/jav

gohtmlJava的HTML解析库

gohtml是一个很小的Java类库，用来解析HTML文档，目前尚未公开发布版本。

gohtmlJava的HTML解析库

gohtml 是一个很小的 Java 类库，用来解析 HTML 文档，目前尚未公开发布版本。

点赞

收藏

分享

举报