欢迎光临
我们一直在努力

爬虫小练习01—获取网站源码

第一步

明确自己需要爬取的网页网址URL

https://bbs.zol.com.cn/ 

爬虫小练习01—获取网站源码

第二步

引入requests库,使用request库发起请求

import requests url = "https://bbs.zol.com.cn/" r = requests.get(url) r 

此时若显示的状态码不是200,有可能是网站得知用户在使用爬虫程序访问, 禁止你继续访问。故手动添加headers,在Headers中, User-Agent 项会记录用户的使用系统和浏览器版本,伪装成一个普通的用户
User-Agent查找方式:(查找自己的电脑)
爬虫小练习01—获取网站源码爬虫小练习01—获取网站源码爬虫小练习01—获取网站源码

修改后代码:

import requests url = 'http://bbs.zol.com.cn/' headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'} r = requests.get(url, headers = headers) r 

爬虫小练习01—获取网站源码

第三步

 r.text 

若我们采集到的网页源码中的中文部分没有正常解析,有可能是网页编码格式不正确

 r.encoding  r.apparent_encoding  r.encoding = r.apparent_encoding 

然后重新查看网页源码

完整代码

import requests  url = 'http://bbs.zol.com.cn/'  headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'}  r = requests.get(url, headers = headers)  r.encoding = r.apparent_encoding  r.text  r.headers  r.status_code 
  • 海报
海报图正在生成中...
赞(0) 打赏
声明:
1、本博客不从事任何主机及服务器租赁业务,不参与任何交易,也绝非中介。博客内容仅记录博主个人感兴趣的服务器测评结果及一些服务器相关的优惠活动,信息均摘自网络或来自服务商主动提供;所以对本博客提及的内容不作直接、间接、法定、约定的保证,博客内容也不具备任何参考价值及引导作用,访问者需自行甄别。
2、访问本博客请务必遵守有关互联网的相关法律、规定与规则;不能利用本博客所提及的内容从事任何违法、违规操作;否则造成的一切后果由访问者自行承担。
3、未成年人及不能独立承担法律责任的个人及群体请勿访问本博客。
4、一旦您访问本博客,即表示您已经知晓并接受了以上声明通告。
文章名称:《爬虫小练习01—获取网站源码》
文章链接:https://www.456zj.com/28468.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址