hdq处理 HTML 文档的 Go+ 工具包
hdq 是用于处理 HTML 文档的 Go+ 工具包。
使用教程
下边是使用 hdq 获取一个 html 页面所有链接的代码示例:
import "github.com/qiniu/hdq"
func links(url interface{}) []string {
doc := hdq.Source(url)
return [link for a <- doc.any.a, link := a.hrefVal?:""; link != ""]
}
首先调用hdq.Source(url)
创建一个命名为doc
的节点集,它只包含一个节点,即根节点。
然后通过doc.any.a
选择所有a
标签元素,此处的doc.any
指的是 html 文档中的所有节点。
然后访问所有a
元素,获取href
属性值并将其分配给变量link
。如果链接非空,则收集它。
最后返回所有收集到的链接。
完整代码查看 tutorial/01-Links。
评论
tagparserPython的HTML文档解析
很多人需要提取网页的一些内容,可以利用正则表达式提取,也可以用beautifulsoap等工具.正则表达式方法速度快,缺点是不好找到匹配的正则.其他类似beautiful的工具因为要全面分析html,
tagparserPython的HTML文档解析
0
psutilPython 的进程处理工具包
psutil是一个Python模块用来获取正在运行的进程信息和系统的CPU和内存的利用率。类似Linux的ps、top和Windows的任务管理器等程序。
psutilPython 的进程处理工具包
0
FoolNLTK中文处理工具包
FoolNLTK中文处理工具包特点可能不是最快的开源中文分词,但很可能是最准的开源中文分词基于BiLSTM模型训练而成包含分词,词性标注,实体识别,都有比较高的准确率用户自定义词典Installpip
FoolNLTK中文处理工具包
0
JffmpegJava多媒体处理工具包
Jffmpeg是一个Java的多媒体框架插件,可以用来播放大部分格式的音频和视频格式的文件,基于ffmpeg项目开发,支持多种纯Java的编码器,使用JNI方式来调用ffmpeg进行多媒体格式文件处理
JffmpegJava多媒体处理工具包
0
NYXImagesKitiOS 图像处理工具包
NYXImagesKit包含一组很有用的UIImage图像处理方法,包括filtering、blurring、enhancing、masking、reflecting、resizing、rotatin
NYXImagesKitiOS 图像处理工具包
0