hdq处理 HTML 文档的 Go+ 工具包
hdq 是用于处理 HTML 文档的 Go+ 工具包。
使用教程
下边是使用 hdq 获取一个 html 页面所有链接的代码示例:
import "github.com/qiniu/hdq"
func links(url interface{}) []string {
doc := hdq.Source(url)
return [link for a <- doc.any.a, link := a.hrefVal?:""; link != ""]
}
首先调用hdq.Source(url)
创建一个命名为doc
的节点集,它只包含一个节点,即根节点。
然后通过doc.any.a
选择所有a
标签元素,此处的doc.any
指的是 html 文档中的所有节点。
然后访问所有a
元素,获取href
属性值并将其分配给变量link
。如果链接非空,则收集它。
最后返回所有收集到的链接。
完整代码查看 tutorial/01-Links。
评论