新手学Python的三大注意事项!【附Python爬虫学习大纲】

python教程

共 3615字,需浏览 8分钟

 ·

2021-07-11 03:27

 新手学Python开发的三大注意事项,学习要有目标这样在学习的过程中才不会偏离学习方向,首先你需要一个明确的学习目标,其次了解整体的学习框架,然后选择适合自己情况的学习路线,具备以上三点才可以学习python,接下来我们具体来看看~


  首先,需要一个明确的学习目标


  很多人会说我有目标啊,就是要学会编程,然后还要找份高薪的程序员工作。这是一种目标,但不是明确的、具体的、可执行的学习目标。这就好比说“我要幸福”、“我要做自己想做的事”但没有具体标准一样,对你的行动没有任何指导意义。


  你要学编程,是为了去写一个自动脚本抢票抢优惠券,还是平常处理大量文件时候可以自动化?是为了验证你股票上的交易策略是否可靠,还是做一个网页推广自己的品牌?如果你的目标是为了找工作,那是想做开发游戏还是桌面软件,是数据处理还是网站,前端还是后端?编程是一个很广泛的概念,明确你的目的,学习时才能有方向,也更能坚持下去。


  也许有不少人觉得,我也不清楚,只是想多学个技能,总归会有好处吧。而且我都还没学呢,怎么知道之后要做什么?这个出发点可以理解,但我仍然建议:必须给自己定一个小目标。哪怕你开脑洞随便想一个需求也是好的。不然这种先学了再说的状态很难让你坚持下去。


  你不必担心定错了目标就走上了弯路,它总比没有目标要好多了。它只是你学习初期的一个里程碑,等你能顺利完成它,后面还有更多的目标供你选择。


  其次,建立整体的认知


  在软件开发领域有这样一句话:过早的优化是万恶之源。


  在编程学习里同样有效。很多人会追求某种一步到位的终极路线,表现出来就是:希望别人推荐一套最佳教程,先理论后实践,钻入细节的牛角尖。


  似乎看起来没什么不对,明确路线、打好基础、按部就班,很符合一贯的教育理念啊。就好像你执意要优化你的代码一样,如果我说你这么做是错的,倒显得我有问题。


  但事情是分时机的,正确的事情在不合适的时间去做,就会导致错误的结果。过早地陷入局部细节,追求理论基础,很容易让初学者困惑,以至于在某个点上卡壳,无法继续学习下去。浅显易懂和专业性强本来就是很难调和的两个维度,很多教程之所以优秀,是因为它内容体系完善,但对于你来说真的合适吗?


  对于早期学习者,尤其是非专业的自学者来说,囫囵吞枣、不求甚解才是更合理的打开方式。


  借用网上的这张图,编程与之很类似。如果说图上的点是编程相关的各种概念和技术,学习的过程就好比绘制这张图:你通过学习,了解了这些技能点,并将其连接起来。


  一种绘制方法就是先画好一个点的细节,再从这个点出发精确画出通往下一个点的线,依次一个个画下去。这是种看似稳妥,实际上却低效且很容易出错的方式。更合理的方法是:先确定纸上点的大体分布,画出他们的轮廓,然后画好关键位置上的点,连接关键点,之后再逐步完善分支和细节。


  学习编程是一个反复尝试、不断迭代的过程,而不是一路到底的单行道。


  在刚接触编程的时候,你根本无须在意太多细节,而是更应该对编程有个直观的印象,知道技术能够实现什么,体会编程的乐趣。这和上一点是相辅相成的:当你有了一个目标,就可以去了解达到目标需要哪些知识点、怎样的学习路径,以此来确立自己要学习的内容;而当你对编程的有一个整体的认知,又会更清楚自己学了编程可以做什么,让自己的目标更明确。


  最后,选择合适自己的学习路线


  在有了明确的目标,建立了整体的认知之后,接下来的事情就很自然了:选择一个合适你的起点,朝着通往目标的方向,开始你的学习,点亮技能图谱上的点,并将其连接起来。否则,盲目地从一个不恰当的地方开始,比如选了一本起点较高的书,或是上手就去折腾某个框架,就会事倍功半,效率很低,甚至导致放弃。所谓“欲速则不达”,就是这个道理。


  如果你做了上一点,有些基本的整体认知,自然就会明白那些“21天精通XX”、“两个月成为数据分析师”的宣传语有多荒唐。


  想学习python,先要问问自己学了干什么?需要学哪些内容?从哪学起?然后明确自己的学习目标,对整体知识点的认知,学习的起点和路线,学习的过程中遇到问题需要方平心态,遇到问题不能轻易放弃。

  python爬虫课程大纲分为四个部分Python爬虫入门、Python爬虫之Scrapy框架、Python爬虫进阶操作、分布式爬虫及实训项目。


  第一部分:Python 爬虫入门

  (1)什么是爬虫

  网址构成和翻页机制

  网页源码结构及网页请求过程

  爬虫的应用及基本原理


  (2)初识Python爬虫

  Python爬虫环境搭建

  创建第一个爬虫:爬取百度首页

  爬虫三步骤:获取数据、解析数据、保存数据


  (3)使用Requests爬取豆瓣短评

  Requests的安装和基本用法

  用Requests?爬取豆瓣短评信息

  一定要知道的爬虫协议


  (4)使用Xpath解析豆瓣短评

  解析神器Xpath的安装及介绍

  Xpath的使用:浏览器复制和手写

  实战:用?Xpath?解析豆瓣短评信息


  (5)使用Pandas保存豆瓣短评数据

  pandas?的基本用法介绍

  pandas文件保存、数据处理

  实战:使用pandas保存豆瓣短评数据


  (6)浏览器抓包及headers设置

  爬虫的一般思路:抓取、解析、存储

  浏览器抓包获取Ajax加载的数据

  设置headers?突破反爬虫限制

  实战:爬取知乎用户数据


  (7)数据入库之MongoDB

  MongoDB及RoboMongo的安装和使用

  设置等待时间和修改信息头

  实战:爬取拉勾职位数据

  将数据存储在MongoDB中

  补充实战:爬取微博移动端数据


  8、Selenium爬取动态网页

  动态网页爬取神器Selenium搭建与使用

  分析淘宝商品页面动态信息

  实战:用Selenium?爬取淘宝网页信息


  第二部分:Python爬虫之Scrapy框架


  (1)爬虫工程化及Scrapy框架初窥

  html、css、js、数据库、http协议

  Scrapy调度器、下载中间件、项目管道等

  常用爬虫工具:数据库、抓包工具等


  (2)Scrapy安装及基本使用

  Scrapy安装

  Scrapy的基本方法和属性

  开始第一个Scrapy项目


  (3)Scrapy选择器的用法

  常用选择器:css、xpath、re、pyquery

  css、xpath的使用方法

  re的使用方法

  pyquery的使用方法


  (4)Scrapy的项目管道

  Item Pipeline的主要函数

  实战举例:将数据写入文件

  实战举例:在管道里过滤数据


  (5)Scrapy的中间件

  下载中间件和蜘蛛中间件

  下载中间件的三大函数

  系统默认提供的中间件


  (6)Scrapy的Request和Response详解

  Request对象基础参数和高级参数

  Response对象参数和方法

  Response对象方法的综合利用详解


  第三章:Python爬虫进阶操作


  (1)网络进阶之谷歌浏览器抓包分析

  http请求详细分析

  网络面板结构

  过滤请求的关键字方法

  复制、保存和清除网络信息

  查看资源发起者和依赖关系


  (2)数据入库之去重与数据库

  如何进行数据去重

  MongoDB数据入库


  第四章:分布式爬虫及实训项目


  (1)大规模并发采集——分布式爬虫的编写

  Scrapy分布式爬取原理

  Scrapy-Redis的使用

  Scrapy分布式部署详解


  (2)实训项目(一)——58同城二手房监控

  58同城抓取流程分析

  网站抓取代码块示例,搭建工程框架

  各流程详细操作及代码实现


  (3)实训项目(二)——去哪儿网模拟登陆

  模拟登陆的原理及实现方式

  cookie及session

  去哪儿模拟登陆问题思考及方案准备

  流程拆解及具体代码实现


  (4)实训项目(三)——京东商品数据抓取

  Spider类和CrawlSpider类

  京东商品信息抓取分析,确定方案流程

  抓取详细操作及代码实现


  以上就是老师整理的“零基础学员必看的python爬虫课程大纲”内容,希望可以帮到您~

搜索下方加老师微信

老师微信号:XTUOL1988切记备注学习Python

领取Python web开发,Python爬虫,Python数据分析,人工智能等精品学习课程。带你从零基础系统性的学好Python!

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权


浏览 28
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报