欢迎光临
我们一直在努力

Python爬虫爬取网站内容的时候多出的\xa0(html源码中的&nbsp)怎么去掉?

今天根据B站播放量最高的一个Python爬虫教学视频学习了一下,视频中的案例是爬取豆瓣电影TOP250,学习过程中遇到一些问题特此随笔作为记录。
我出现问题的地方对应部分网站源码如下图:

Python爬虫爬取网站内容的时候多出的\xa0(html源码中的&nbsp)怎么去掉?

 

由于没有学过html的前端网页知识,所以图中的&nbsp代表什么意思也是上网查询后得知:它是html中的一个转义字符代表的是html中的硬空格,也就是在网页中显示的时候有一个&nbsp就显示一个空格。

这段源代码存储的是电影的外文名,我用正则匹配的时候将多余的&nbsp也涵盖了,所以最终结果多了一些奇怪的字符:\xa0

爬取结果如下图

Python爬虫爬取网站内容的时候多出的\xa0(html源码中的&nbsp)怎么去掉?

 

 那么怎么去除\xa0呢?

一开始我想着利用字符串的方法 :字符串.replace('&nbsp', '', '要替换的字符串')来处理,结果并没有发生改变

后来查了查,才知道其实要用unicode编码来替换。
但其实&nbsp对应的unicode编码就是\xa0,所以直接替换\xa0为空白就可以了

代码如下

Python爬虫爬取网站内容的时候多出的\xa0(html源码中的&nbsp)怎么去掉?

 

 代码中 titles[1] 就是我匹配出来的包含\xa0的电影外文名的字符串。

还查了网上的其他的资料,好像还有别的办法,没去研究,暂时不讨论了

  • 海报
海报图正在生成中...
赞(0) 打赏
声明:
1、本博客不从事任何主机及服务器租赁业务,不参与任何交易,也绝非中介。博客内容仅记录博主个人感兴趣的服务器测评结果及一些服务器相关的优惠活动,信息均摘自网络或来自服务商主动提供;所以对本博客提及的内容不作直接、间接、法定、约定的保证,博客内容也不具备任何参考价值及引导作用,访问者需自行甄别。
2、访问本博客请务必遵守有关互联网的相关法律、规定与规则;不能利用本博客所提及的内容从事任何违法、违规操作;否则造成的一切后果由访问者自行承担。
3、未成年人及不能独立承担法律责任的个人及群体请勿访问本博客。
4、一旦您访问本博客,即表示您已经知晓并接受了以上声明通告。
文章名称:《Python爬虫爬取网站内容的时候多出的\xa0(html源码中的&nbsp)怎么去掉?》
文章链接:https://www.456zj.com/9389.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址