html2article-golang基于文本密度的 html2article 实现
html2article — 基于文本密度的html2article实现[golang]
Install
go get -u -v github.com/sundy-li/html2article
Performance
avg 3.2ms per article, accuracy >= 98% (对比其他开源实现,可能是目前最快的html2article实现,我们测试的数据集约3kw来自于微信公众号,各大类中文科技媒体历史文章,目前能达到98%以上准确率)
Examples
参考examples from_url.go
package main import ( "github.com/sundy-li/html2article" ) func main() { article, err := html2article.FromUrl("https://www.leiphone.com/news/201602/DsiQtR6c1jCu7iwA.html") if err != nil { panic(err) } println("article title is =>", article.Title) println("article publishtime is =>", article.Publishtime) println("article content is =>", article.Content) }
Algorithm
评论
13层基于文本的冒险游戏
这是一款类似于小黑屋的放置型经营游戏,你可以建造多种建筑和收集多种资源,来一步步探索13个层面。 特征生存与探索基地建设和资源管理随机生成的地图物品、设备和环境危害慢慢解锁游戏新的技术
13层基于文本的冒险游戏
0
基于transformer的文本识别方法
很久很久很久之前(大约是两年前)接触到了Transformer,seq2seq模型注意力机制的另一种实现,完全摒弃了循环网络,使得速度得到极大提升。
所以就忍不住想,把Transformer应用到文本识别上来是否可行呢?这一想法使得我几天几夜茶饭不思,夜不能眠,理论上肯定是可以的,因为Transformer也是用于seq2seq模型的;鉴于最近终于空闲了,可以放手实现一下。
关于Transformer的理论细节,本文就不展开了(后面计划着...)。 其结构如下图所示:
而我们主要关注的是encoder部分:
基于TRANSFORMER文本识别模型的网络架构
参考文献[3]把识别模型网络结构划分成了四部分,如图:
laygin
0