码农日记

薄洪涛的个人博客

python爬虫第一篇之环境的搭建

爬虫入门知识及环境的搭建

今天我们来学习下爬虫

一、 什么是爬虫

如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;

从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)

二、环境的搭建

要学习爬虫,我们必须搭建python环境,这里我推荐大家使用Anaconda集成环境,因为Anaconda内置了Python环境,而且里面集成了很多第三方库,可以避免搭建环境出现错误而消磨你的学习的乐趣

 

图片1.png


当你在命令行分别输入Python和Anaconda时,能够识别并显示版本号,说明安装成功

三、 爬虫的流程及基础知识

爬虫的流程和浏览器访问某个网站一样,就是利用程序去发送一个请求,我们接收访问的请求然后解析请求。

图片2.png


可以做爬虫的语言有很多,比如php,java,python,为什么python适合做爬虫,因为python擅长做的就是数据的处理,就开发效率来说,python的开发效率还是比较快的,这些就是后话了

1、发起请求

使用代码向目标站点发起请求,即发送一个Request,分为getpost两种请求方式

2、获取响应内容及状态码

如果服务器能正常响应,则会得到一个Response

Response包含:htmljson,图片,视频等

   200:代表成功

  301:代表跳转

  404:文件不存在

  403:无权限访问

  502:服务器错误

3、解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsouppyquery

解析json数据:json模块 

4、保存数据

数据库(MySQLMongdbRedis

文件(txtexcel 

5、请求的URL

url全球统一资源定位符,用来定义互联网上一个唯一的资源 例如:一张图片、一个文件、一段视频都可以用url唯一确定 

6、请求头

User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host

cookiescookie用来保存登录信息

注意: 一般做爬虫都会加上请求头

请求头需要注意的参数:

1Referrer:访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)

2User-Agent:访问的浏览器(要加上否则会被当成爬虫程序)

3cookie:请求头注意携带 

今天的内容有点杂,还希望大家好好理解


发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

版权所有 | 转载请标明出处