爬虫入门知识及环境的搭建
今天我们来学习下爬虫
一、 什么是爬虫
如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)爬虫指的是:向网站发起请求,获取资源后分析并提取有用数据的程序;
从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)
二、环境的搭建
要学习爬虫,我们必须搭建python环境,这里我推荐大家使用Anaconda集成环境,因为Anaconda内置了Python环境,而且里面集成了很多第三方库,可以避免搭建环境出现错误而消磨你的学习的乐趣
当你在命令行分别输入Python和Anaconda时,能够识别并显示版本号,说明安装成功
三、 爬虫的流程及基础知识
爬虫的流程和浏览器访问某个网站一样,就是利用程序去发送一个请求,我们接收访问的请求然后解析请求。
可以做爬虫的语言有很多,比如php,java,python,为什么python适合做爬虫,因为python擅长做的就是数据的处理,就开发效率来说,python的开发效率还是比较快的,这些就是后话了
1、发起请求
使用代码向目标站点发起请求,即发送一个Request,分为get和post两种请求方式
2、获取响应内容及状态码
如果服务器能正常响应,则会得到一个Response
Response包含:html,json,图片,视频等
200:代表成功
301:代表跳转
404:文件不存在
403:无权限访问
502:服务器错误
3、解析内容
解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等
解析json数据:json模块
4、保存数据
数据库(MySQL,Mongdb、Redis)
文件(txt,excel等)
5、请求的URL
url全球统一资源定位符,用来定义互联网上一个唯一的资源 例如:一张图片、一个文件、一段视频都可以用url唯一确定
6、请求头
User-agent:请求头中如果没有user-agent客户端配置,服务端可能将你当做一个非法用户host;
cookies:cookie用来保存登录信息
注意: 一般做爬虫都会加上请求头
请求头需要注意的参数:
(1)Referrer:访问源至哪里来(一些大型网站,会通过Referrer 做防盗链策略;所有爬虫也要注意模拟)
(2)User-Agent:访问的浏览器(要加上否则会被当成爬虫程序)
(3)cookie:请求头注意携带
今天的内容有点杂,还希望大家好好理解