我是靠谱客的博主 专一曲奇,这篇文章主要介绍爬虫基础(beautifulSoup用法),现在分享给大家,希望可以做个参考。

1,from bs4 import BeautifulSoup

2,请求头headers;
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.110 Safari/537.36','referer':"www.mmjpg.com" }


解释:

all_url = 'http://www.mmjpg.com/' 

'User-Agent':请求方式  
'referer':从哪个链接跳转进来的

3,建立连接;
start_html = requests.get(all_url,  headers=headers)
解释:
all_url:起始的地址,也就是访问的第一个页面
headers:请求头,告诉服务器是谁来了。
requests.get:一个方法能获取all_url的页面内容并且返回内容。

4,解析获取的页面;
Soup = BeautifulSoup(start_html.text, 'lxml')
解释:
BeautifulSoup:解析页面
lxml:解析器
start_html.text:页面的内容


5,处理获取的页面;
all_a = Soup.find('div', class_='pic').find_all('a')[-2]
解释:
Soup.find()查找某一个
find_all()查找所有的,返回一个列表
.find('img')['src']    :获取img的src链接属性    
class__:获取目标的类名
div/a:类型条件为div/a的
[-2]可以用来去掉最后多匹配的标签,这里表示去掉最后两个a标签

find()和findAll可并列使用:
例子:
all_list = str_res.find("div", {"class":'f14list'}).findAll("a")
查找div,class='f14list'下面所有的a标签

6,获取目标内容;
<a href =# >内容</a>
解释:

a[i]/get_text():获取第i个a标签里面的内容


7、可能用到的其他功能介绍:
1、文件夹创建与切换
os.makedirs(os.path.join("E:name", filename))
#在目录E:name下创建名为filename的文件夹
os.chdir("E:name\" + filename)
#切换工作路径到E:namefilename下


2、文件保存
f = open(name+'.jpg', 'ab')##写入多媒体文件必须要 b 这个参数!
f.write(img.content) ##多媒体文件要是用conctent!
f.close()

最后

以上就是专一曲奇最近收集整理的关于爬虫基础(beautifulSoup用法)的全部内容,更多相关爬虫基础(beautifulSoup用法)内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(108)

评论列表共有 0 条评论

立即
投稿
返回
顶部