第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/

爬虫小练习01—获取网站源码

第二步

引入requests库，使用request库发起请求

import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r

此时若显示的状态码不是200，有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加headers，在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本，伪装成一个普通的用户
User-Agent查找方式：（查找自己的电脑）
爬虫小练习01—获取网站源码

修改后代码：

import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r

第三步

 r.text

若我们采集到的网页源码中的中文部分没有正常解析，有可能是网页编码格式不正确

 r.encoding  r.apparent_encoding  r.encoding = r.apparent_encoding

然后重新查看网页源码

完整代码

import requests  url = 'http://bbs.zol.com.cn/'  headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}  r = requests.get(url, headers = headers)  r.encoding = r.apparent_encoding  r.text  r.headers  r.status_code

海报

海报图正在生成中...

竖版宽版

爬虫小练习01—获取网站源码

第一步

第二步

第三步

完整代码

相关推荐

评论抢沙发

互动交流中心

热门文章

快猫云高防云服务器，美国CTG/成都联通/移动/中国香港/美国高防VPS优惠促销

51IDC-美国/香港/日本/韩国/高性价比服务器，全球直连CN2/GIA优质精品线路，优惠进行中，欢迎咨询

热门标签

网站统计

第一步

第二步

第三步

完整代码

相关推荐

评论 抢沙发

互动交流中心

热门文章

快猫云高防云服务器，美国CTG/成都联通/移动/中国香港/美国高防VPS优惠促销

51IDC-美国/香港/日本/韩国/高性价比服务器，全球直连CN2/GIA优质精品线路，优惠进行中，欢迎咨询

热门标签

网站统计

评论抢沙发