news-search-engine新闻搜索引擎
新闻搜索引擎
使用方法
- 安装python 3.4+环境(推荐Anaconda或Miniconda)
- 安装lxml html解析器,命令为
pip install lxml
- 安装jieba分词组件,命令为
pip install jieba
- 安装Flask Web框架,命令为
pip install Flask
- 进入web文件夹,运行main.py文件
- 打开浏览器,访问http://127.0.0.1:5000/ 输入关键词开始测试
如果想抓取最新新闻数据并构建索引,一键运行./code/setup.py
,再按上面的方法测试。
2020.4.5:新增抓取中国新闻网的爬虫程序。先运行./code/spider.chinanews.com.py
爬取最近5天新闻(约2500条);然后注释./code/setup.py
第38行并运行,自动构建索引。
项目介绍
- 和我一起构建搜索引擎(一)简介
- 和我一起构建搜索引擎(二)网络爬虫
- 和我一起构建搜索引擎(三)构建索引
- 和我一起构建搜索引擎(四)检索模型
- 和我一起构建搜索引擎(五)推荐阅读
- 和我一起构建搜索引擎(六)系统展示
- 和我一起构建搜索引擎(七)总结展望
- 和我一起构建搜索引擎(八)更新爬虫&修改打分&线上部署
感谢
评论
Nutch搜索引擎
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch的创始人是DougCutting,他同时也是Lucene、Hadoop
Nutch搜索引擎
0
lunr.jsJavaScript 搜索引擎
lunr.js实现了在网页上的搜索引擎,类似Solr。示例代码://定义索引varidx=lunr(function(){this.field('title',{boost:10})this.fiel
lunr.jsJavaScript 搜索引擎
0
PonySEweb搜索引擎
PonySE是一个高速的,灵活的,小型web搜索引擎,使用C/C++开发.PonySE的每一个模块都尽量独立,这意味着你可以单独使用其中的一个你觉得有用的模块.
PonySEweb搜索引擎
0
HERMES搜索引擎
Hermes的出现,并不是为了替代Solr、ES的,就像ES的出现并不是为了干掉Oracle和MySQL一样,而是为了满足不同层面的需求。Hermes使用特点:1.一个基于大索引技术的海量数据实时检索
HERMES搜索引擎
0