第一步
明确自己需要爬取的网页网址URL
https://bbs.zol.com.cn/
第二步
引入requests库,使用request库发起请求
import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r
此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)
修改后代码:
import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r
第三步
r.text
若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确
r.encoding r.apparent_encoding r.encoding = r.apparent_encoding
然后重新查看网页源码
完整代码
import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r.encoding = r.apparent_encoding r.text r.headers r.status_code
- 海报