我是靠谱客的博主 自然蜗牛,这篇文章主要介绍python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...,现在分享给大家,希望可以做个参考。

此处不打算解释具体用法,因为官方主页中有说明:

以及网上也有很多资料解释,具体是如何使用BeautifulSoup的。

此处只是记录,在使用过程中,遇到的一些问题,以及如何解决的,或者是使用时候,有哪些需要注意的事情。

1.关于不支持相关的问题

如果要解析的html中包含类似于:

等字样的字符串,此处3.0.6的BeautifulSoup会解析出错的。

具体相关解释去看:

2.不支持html中一些属性/字符的深度嵌套

如果解析的html中包含一些特殊的情况,比如

sina的一个博客帖子:

其html源码中包含这样的:。。。。。。。。。。。。。。。

那么此部分内容,就会解析失败。

此处我用了代码:# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html

processedHtml = processedHtml.replace('', "");

processedHtml = processedHtml.replace("", "");

去处理,然后再去解析,就可以了。

最后

以上就是自然蜗牛最近收集整理的关于python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...的全部内容,更多相关python处理HTML内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(128)

评论列表共有 0 条评论

立即
投稿
返回
顶部