news-search-engine新闻搜索引擎
新闻搜索引擎
使用方法
- 安装python 3.4+环境(推荐Anaconda或Miniconda)
- 安装lxml html解析器,命令为
pip install lxml
- 安装jieba分词组件,命令为
pip install jieba
- 安装Flask Web框架,命令为
pip install Flask
- 进入web文件夹,运行main.py文件
- 打开浏览器,访问http://127.0.0.1:5000/ 输入关键词开始测试
如果想抓取最新新闻数据并构建索引,一键运行./code/setup.py
,再按上面的方法测试。
2020.4.5:新增抓取中国新闻网的爬虫程序。先运行./code/spider.chinanews.com.py
爬取最近5天新闻(约2500条);然后注释./code/setup.py
第38行并运行,自动构建索引。
项目介绍
- 和我一起构建搜索引擎(一)简介
- 和我一起构建搜索引擎(二)网络爬虫
- 和我一起构建搜索引擎(三)构建索引
- 和我一起构建搜索引擎(四)检索模型
- 和我一起构建搜索引擎(五)推荐阅读
- 和我一起构建搜索引擎(六)系统展示
- 和我一起构建搜索引擎(七)总结展望
- 和我一起构建搜索引擎(八)更新爬虫&修改打分&线上部署
感谢
评论