我是靠谱客的博主 自然蜗牛,这篇文章主要介绍python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...,现在分享给大家,希望可以做个参考。
此处不打算解释具体用法,因为官方主页中有说明:
以及网上也有很多资料解释,具体是如何使用BeautifulSoup的。
此处只是记录,在使用过程中,遇到的一些问题,以及如何解决的,或者是使用时候,有哪些需要注意的事情。
1.关于不支持相关的问题
如果要解析的html中包含类似于:
等字样的字符串,此处3.0.6的BeautifulSoup会解析出错的。
具体相关解释去看:
2.不支持html中一些属性/字符的深度嵌套
如果解析的html中包含一些特殊的情况,比如
sina的一个博客帖子:
其html源码中包含这样的:。。。。。。。。。。。。。。。
那么此部分内容,就会解析失败。
此处我用了代码:# handle special case for http://blog.sina.com.cn/s/blog_5058502a01017j3j.html
processedHtml = processedHtml.replace('', "");
processedHtml = processedHtml.replace("", "");
去处理,然后再去解析,就可以了。
最后
以上就是自然蜗牛最近收集整理的关于python处理HTML的函数库,【整理】关于Python中的html处理库函数BeautifulSoup使用注意事项...的全部内容,更多相关python处理HTML内容请搜索靠谱客的其他文章。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复