优惠券 | Python网络爬虫与文本数据分析
大邓和他的Python
共 1527字,需浏览 4分钟
· 2021-02-25
课程介绍
在过去的两年间,Python一路高歌猛进,成功窜上“最火编程语言”的宝座。惊奇的是使用Python最多的人群其实不是程序员,而是数据科学家,尤其是社会科学家,涵盖的学科有经济学、管理学、会计学、社会学、传播学、新闻学等等。
大数据时代到来,网络数据正成为潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于网页中。非计算机专业背景的人也可借助机器学习、人工智能等方法进行研究。使用网络世界数据进行研究,面临两大难点:
数据的获取 文本(非结构化)数据的处理与分析
数据获取需要借助Python编程语言设计网络爬虫,而获得的数据中有相当比例数据是非结构化数据,这就需要文本数据分析技术。本次课程参照已发表的社科类的文章,希望帮助大家解决文本分析这最难的两大难点。课程设计的初衷是用最少的时间让大家学到最有用的知识点,降低学习难度。希望学习完本课程后能让各位结合研究需要对自己学科内的文本分析有一个全面深刻的了解,方便各位开展后续研究。
课程试听
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
目录
一、准备阶段
Win中的Python配置 Mac中的Python配置
二、Python语法入门
Python跟英语一样是一门语言 数据类型之字符串 数据类型之列表元组集合 数据类型之字典 数据类型之布尔值、None 逻辑语句(if&for&tryexcept) 列表推导式 理解函数 常用的内置函数 内置库文件路径pathlib库 内置库csv文件库 内置库正则表达式re库 初学python常出错误汇总
三、数据采集
网络爬虫原理 网络访问requests库 网页解析pyquery库 实战:大众点评 实战:豆瓣读书 实战:Boss直聘 如何解析json数据 实战: 豆瓣电影 实战: 京东商城 如何用爬虫下载文档及多媒体文件 上市公司定期报告pdf批量下载 爬虫知识点总结 补充-用pandas采集表格数据
四、数据分析
Pandas基础知识 数据去重与缺失值处理 合并数据 重塑数据 选取表中指定记录(行) 选取表中指定字段(列) 描述性统计 在表中创建新字段(列) 批操作apply与agg 透视表pivot_table 数据分组groupby 时间序列时间点创建 日期数据的dt属性 日期行索引操作(选取指定日期的数据) 时间序列date_range 时间序列重采样resample 时间序列时间窗口rolling 实战:Kaggle titanic数据集探索性分析 实战:Boss直聘Python岗位分析
五、初识文本分析
文本分析在经管领域中的应用概述(1) 读取不同格式文件中的数据 实战:实战之如何将多个整理到一个excel中 中文分词及数据清洗 实战:词频统计 实战:中文情感分析(词典法) 实战:对excel中的文本进行情感分析 实战:共现法扩展情感词典(领域词典)
六、机器学习与文本分析
了解机器学习 使用机器学习做文本分析的流程 scikit-learn机器学习库简介 文本特征抽取(特征工程) 实战:在线评论文本分类 文本相似性计算 实战:使用文本相似性识别变化(政策连续性) 实战:Kmeans聚类算法 实战:LDA话题模型 简化版的LDA 文本分析在经管领域中的应用概述(2)
购买链接
支付成功后,可下载腾讯课堂app或网页端打开腾讯课堂官网,使用微信扫码登录后即可学习
评论
谷歌员工爆料Python基础团队原地解散
机器之心报道编辑:蛋酱什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Thomas Wouter
机器学习初学者
0
超大规模数据中心网络架构及其技术演变
本文所讲的数据中心网络架构和技术范围是针对典型的大型互联网和云计算公司的超大规模数据中心(Hyperscale Data Center),不一定适合其他类型的数据中心网络。业界对于什么规模才算是“超大规模(Hyperscale”并没有一个精确的定义。一般来说,一个数据中心网络集群至少有 5000台服
数据中心运维管理
0
【Python】coverage,一个有趣的 Python 库!
大家好,今天为大家分享一个有趣的 Python 库 - coveragepy。Github地址:https://github.com/nedbat/coveragepy在软件开发中,测试是确保代码质量和稳定性的关键步骤之一。而代码覆盖率则是衡量测试覆盖代码的程度的重要指标之一。Python cove
机器学习初学者
0
展讯平台手机重启问题分析指南
和你一起终身学习,这里是程序员Android经典好文推荐,通过阅读本文,您将收获以下知识点:一、 User 版本 默认开启 sysdump 方法二、插入SD卡 抓取Sysdump log三、 sysdump log 分析四、展讯平台抓取重启 串口log的方案五、展讯平台判断重启类型六、展讯平台关闭
程序员Android
0
【Python】Python加速运行技巧
Python 是一种脚本语言,相比 C/C++ 这样的编译语言,在效率和性能方面存在一些不足。但是,有很多时候,Python 的效率并没有想象中的那么夸张。本文对一些 Python 代码加速运行的技巧进行整理。 0. 代码优化原则 本文会介绍不少的 Python 代码加速运行的技巧。在深入代码优化细
机器学习初学者
0
Java与lua互相调用简单教程
来源:网络👉 欢迎加入小哈的星球 ,你将获得: 专属的项目实战 / Java 学习路线 / 一对一提问 / 学习打卡 / 赠书福利全栈前后端分离博客项目 2.0 版本完结啦, 演示链接:http://116.62.199.48/ ,新项目
小哈学Java
0
【送书福利】《Java面试八股文:高频面试题与求职攻略一本通》
先来唠唠最近粉丝面试回来跟我聊天,基本上都提到一个点,在面试过程中八股文占比很高(八股文70%、项目20%、10%算法)除了一些搞算法突出的厂除外。其实现在很多厂八股都是逐渐深入的方式来问,所以大家在学习的过程中,针对一些重点的内容,最好深入去学习,不然还是比较难应对这种追问式的问题。最近刚好从一位
Java后端技术
0
21.3K star!推荐一款可视化自动化测试/爬虫/数据采集神器!功能免费且强大!
【温馨提示】由于公众号更改了推送规则,不再按照时间顺序排列,如果不想错过测试开发技术精心准备的的干货文章,请将测试开发技术设为“星标☆”,看完文章在文尾处点亮“在看”!大家好,我是狂师!在大数据时代,信息的获取与分析变得尤为重要。对于开发者、数据分析师乃至非技术人员来说,能够高效地采集网络数据并进行
测试开发技术
4