html2article-golang基于文本密度的 html2article 实现

联合创作 · 2023-09-21 23:19

html2article — 基于文本密度的html2article实现[golang]

Install

go get -u -v github.com/sundy-li/html2article

Performance

avg 3.2ms per article, accuracy >= 98% (对比其他开源实现,可能是目前最快的html2article实现,我们测试的数据集约3kw来自于微信公众号,各大类中文科技媒体历史文章,目前能达到98%以上准确率)

Examples

参考examples from_url.go

package main



import (

	"github.com/sundy-li/html2article"

)



func main() {

	article, err := html2article.FromUrl("https://www.leiphone.com/news/201602/DsiQtR6c1jCu7iwA.html")

	if err != nil {

		panic(err)

	}

	println("article title is =>", article.Title)

	println("article publishtime is =>", article.Publishtime)

	println("article content is =>", article.Content)

}

Algorithm

参考论文

Java实现

浏览 17

点赞

收藏

分享

举报

评论

图片

表情

深入浅出——基于密度的聚类方法

小白学视觉

基于密度图的航空物体检测：理论与代码实现

小白学视觉

13层基于文本的冒险游戏

这是一款类似于小黑屋的放置型经营游戏，你可以建造多种建筑和收集多种资源，来一步步探索13个层面。特

13层基于文本的冒险游戏

这是一款类似于小黑屋的放置型经营游戏，你可以建造多种建筑和收集多种资源，来一步步探索13个层面。特征生存与探索基地建设和资源管理随机生成的地图物品、设备和环境危害慢慢解锁游戏新的技术

基于transformer的文本识别方法

很久很久很久之前（大约是两年前）接触到了Transformer，seq2seq模型注意力机制的另一种实现，完全摒弃了循环网络，使得速度得到极大提升。所以就忍不住想，把Transformer应用到文本识别上来是否可行呢？这一想法使得我几天几夜茶饭不思，夜不能眠，理论上肯定是可以的，因为Transformer也是用于seq2seq模型的；鉴于最近终于空闲了，可以放手实现一下。关于Transformer的理论细节，本文就不展开了（后面计划着...）。其结构如下图所示：而我们主要关注的是encoder部分：基于TRANSFORMER文本识别模型的网络架构参考文献[3]把识别模型网络结构划分成了四部分，如图：

Ncgrep基于文本图形的文本搜索工具

Ncgrep基于文本图形（ncurses）的文本搜索工具背景作为一个 VIM 党，日常工作开发中，会

Ncgrep基于文本图形的文本搜索工具

Ncgrep基于文本图形（ncurses）的文本搜索工具背景作为一个VIM党，日常工作开发中，会经常利用grep进行关键词搜索，以快速定位到文件。如图：利用grep进行文本搜索但是，这一过程会有两个效

EDI基于浏览器的文本编辑器

EDI 是一个用 Go 语言开发的编辑器，它并没有尝试成为一个 IDE ，是作为和机器上其他工具的一

Siren基于文本的音频播放器

Siren 是一个基于文本的音频播放器，用于 Linux/Unix 系统。支持 Ogg Vorbis

基于机器学习的文本分类！

点赞

收藏

分享

举报