特别注意,本次教学是已经默认你已经拥有一定的python语法基础和HTML知识的前提下进行的!!!

首先,我默认各位已经安装了pycharm环境,如果安装了anaconda更好,没有安装问题也不大,可以点击这里来进行环境的安装,现在让我们写出你人生中第一个爬虫程序吧!!!!

要爬的网站豆瓣TOP250

我们这次要爬的就是这么一个界面

豆瓣TOP250第一页界面

准确来说是这个界面的HTML代码,可以打开F12进行查看

网页代码查看

现在,我们打开pycharm,新建文件(我相信各位都会),导入requests包,如果用的anaconda的同学会发现已经自带了,如果没有的话可以自行搜索如何去安装,并在url中储存豆瓣TOP250的链接

import requests

url = 'https://movie.douban.com/top250'

之后,我们在返回页面,检查网页源代码,发现它是已GET方式进行传输的

截图

这时候,我们就可以通过resquest来获取网页源代码

import requests

url = 'https://movie.douban.com/top250'

response = requests.get(url = url)

这时候的response还不能被我们所看懂,需要转换成text才可以,之后再输出

import requests

url = 'https://movie.douban.com/top250'

response = requests.get(url = url)
html = response.text
print(html)

这时候查看输出

输出

这时候你会发现,它什么也没有输出,这时候,我们就要了解一下resquest方法了,如果可以了解它,各位就能破解很多一部分反爬问题了,它不仅需要网页链接,还需要模拟计算机登录的参数以及GET所需的参数(本文暂不涉及),而我们该如何模拟计算机登陆呢?

这时候我们需要再次打开浏览器检查代码

检测代码

发现右下角有一个User-Agent,这个就是我们每次登录网页时计算机所提交的参数,用于证明我们是人为使用浏览器登陆的,如果不加,网页会很快识别我们为爬虫将我们拦截,所以我们要以字典的方式将它写入resquest中

import requests

url = 'https://movie.douban.com/top250'
head = {
    "User-Agent": "Mozilla / 5.0(Windows NT 10.0;    Win64;    x64) AppleWebKit / 537.36(KHTML, like   Gecko) Chrome / 92.0    .4515    .107    Safari / 537.36"}
response = requests.get(url = url, headers = head)
html = response.text
print(html)

再一次运行程序

运行结果

发现这次成功返回我们想要的第一页网页源代码了。

如果各位成功了,那么恭喜,各位的第一个爬虫程序已经成功面世了。

一个各位可能遇见的问题

如果各位程序没有错误,但又报以下的错误

报错

ValueError: check_hostname requires server_hostname

那么可各位在运行时开着网络代理(俗称梯子),只要关闭代理,就可以正常使用了

如果各位遇到问题,可以通过加我微信或者B站私信问我,我可以解决的一定会尽力帮助大家的。

text