python爬虫入门:什么是爬虫,怎样玩爬虫?

作者 : 开心源码 本文共999个字,预计阅读时间需要3分钟 发布时间: 2022-05-12 共189人阅读

看到这两只爬虫没有?

两只爬虫

两只爬虫

跑得快

跑得快

一只没有..

不好心思

跑题了…

别误解,今天不是要教你怎样玩上面这两只沙雕玩意。

学习Python中有不明白推荐加入交流群

号:864573496群里有志同道合的小伙伴

,互帮互助,群里有不错的视频学习教程

和PDF!每晚8:00群里直播

今天,我们正式从0到1

轻松学会 python 爬虫

接下来…

将是学习Python的正确姿势!

小帅b闪亮登场

在你的浏览器里面

输入百度网址

https://www.baidu.com

一回车看到一个网页

大家都很熟习吧!

然而

你右键,查看网页源代码。

是这个样子的

(源代码的1/100)

“窝里割草”

简简单单一个页面。

这么多密密麻麻的代码

不说了

劝退前台程序员!

还是学习 Python 吧。哈哈哈

那么说这个,和爬虫有什么关系呢?

你有没有想过

这些许许多多的网站

背后都是少量数据

假如我们可以用一个自动化的程序

轻轻松松就能把它们给爬取下来

是不是很爽?

比方,少量小电影的网站

我们只需用 Python?

写几行代码

而后一运行

这个程序就帮我们爬取所有的小电影到我们本地

完全不需要我们费一点力气

再比方,你想理解一个行业的趋势

是不是可以把它们往年的数据都爬取下来

而后,对这些数据做少量分析呢?

等等..

这些,以后我们都会讲到!

我们刚刚提到的

一个自动化的程序

就是爬虫

知道了什么是爬虫之后

问题来了

爬虫怎样玩的?

那就偷偷告诉你

在互联网上许许多多的网站

它们都是托管在服务器上的

这些服务器 24 小时运行着

时时刻刻,兢兢业业的等待着别人的请求

所以

我们的爬虫,首先会模拟请求

就如同你在浏览器输入网址,而后回车那样

爬虫可以用到少量 Http 库向指定的服务器偷偷摸摸的发起请求,这个时候爬虫可以伪装自己是浏览器(增加少量header信息)

大多数的服务器呢,傻不拉的以为是浏览器发送请求

就直接返回数据给爬虫了

当然了,有少量网站比较精明

所以他们会建立少量反爬虫机制

但是,对于我们来说,不在话下

这个是后话了!

反正这个时候呢,服务器把数据返回给我们了

那么我们即可以对这些数据进行猥琐操作了。

不同的情况下,服务器返回给我们的数据格式不一样

HTML

JSON

二进制的数据啦

根据不同的情况,我们可以使用不同的方式对他们进行解决。

解决完之后

我们即可以对他们进行保存啦

保存的方式也有几种

数据库

硬盘

等等..

以上就是我们的爬虫的具体爬取流程,这是我们开启爬虫体系的第一篇,接下来我们将一步一步来操作我们的爬虫。

说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » python爬虫入门:什么是爬虫,怎样玩爬虫?

发表回复