python爬虫第一篇之环境的搭建

薄洪涛7年前 (2018-06-25)Python1659

爬虫入门知识及环境的搭建

今天我们来学习下爬虫

一、什么是爬虫

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）爬虫指的是：向网站发起请求，获取资源后分析并提取有用数据的程序；

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）

二、环境的搭建

要学习爬虫，我们必须搭建python环境，这里我推荐大家使用Anaconda集成环境，因为Anaconda内置了Python环境，而且里面集成了很多第三方库，可以避免搭建环境出现错误而消磨你的学习的乐趣

图片1.png

当你在命令行分别输入Python和Anaconda时，能够识别并显示版本号，说明安装成功

三、爬虫的流程及基础知识

爬虫的流程和浏览器访问某个网站一样，就是利用程序去发送一个请求，我们接收访问的请求然后解析请求。

图片2.png

可以做爬虫的语言有很多，比如php,java,python，为什么python适合做爬虫，因为python擅长做的就是数据的处理，就开发效率来说，python的开发效率还是比较快的，这些就是后话了

1、发起请求

使用代码向目标站点发起请求，即发送一个Request，分为get和post两种请求方式

2、获取响应内容及状态码

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

　 200：代表成功

　　301：代表跳转

　　404：文件不存在

　　403：无权限访问

　　502：服务器错误

3、解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

4、保存数据

数据库（MySQL，Mongdb、Redis）

文件（txt，excel等）

5、请求的URL

url全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文件、一段视频都可以用url唯一确定

6、请求头

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户host；

cookies：cookie用来保存登录信息

注意：一般做爬虫都会加上请求头

请求头需要注意的参数：

（1）Referrer：访问源至哪里来（一些大型网站，会通过Referrer 做防盗链策略；所有爬虫也要注意模拟）

（2）User-Agent:访问的浏览器（要加上否则会被当成爬虫程序）

（3）cookie：请求头注意携带

今天的内容有点杂，还希望大家好好理解

标签: 爬虫

返回列表

没有更早的文章了...

下一篇：js复制Dom节点内容到系统剪切板

码农日记

python爬虫第一篇之环境的搭建

发表评论

版权所有 | 转载请标明出处

Powered By Z-BlogPHP. Theme by TOYEAN.

码农日记

python爬虫第一篇之环境的搭建

发表评论 取消回复

版权所有 | 转载请标明出处

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论