非常详细的python爬虫编程(python爬虫入门教程)
,韦翰韦赫南韦赫南韦赫南,你是说.
哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥哥,""你好",阿巧阿巧阿巧阿巧阿巧阿巧阿巧阿""喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂",阿云哥阿云哥阿云哥阿云哥阿云哥
嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,朱庇特朱庇特阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹在那里你好,喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂喂在那里你好img-什么何曰。
范仲淹把范仲淹给范仲淹,哥哥哥哥哥哥哥哥哥哥漂亮极了阿奈威路径语言张玉玲说超文本标记语言格式希仪,朱庇特朱庇特朱庇特阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿里阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹阿齐兹。
代码编写
年欧洲足球锦标赛亚力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤阿力坤,吴小敏吴小敏网址(URL)你好importrequestsfroms 4 importtiveapplicationpurl=' 339 movie。豆瓣。com/celebrity/1011562/photos/' RES=requests。获取(URL).text content=beautiful group(RES,' html。解析器’)数据=内容。find _ all(' div ',attrs={ ' class ' : ' cover ' })picture _ list=[]for inda 3330 plist=d . find(' src ')picture _ list。追加(plist)打印(picture _ list)[' 339 img 1。豆巴尼奥。com/view/photo/m/public/p 2564834267。jpg '," 339 img 1。豆巴尼奥。com/view/photo
photo/m/public/p2258657185.jpg','https://img3.doubanio.com/view/photo/m/public/p2166193915.jpg','https://img3.doubanio.com/view/photo/m/public/p2363265595.jpg','https://img3.doubanio.com/view/photo/m/public/p2312085755.jpg','https://img3.doubanio.com/view/photo/m/public/p2311434790.jpg','https://img3.doubanio.com/view/photo/m/public/p2276569205.jpg','https://img1.doubanio.com/view/photo/m/public/p2165332728.jpg']可以看到,是非常干净的列表,里面存储了海报地址。但是这里也只是一页海报的数据,我们观察页面发现它有好多分页,如何处理分页呢。
分页处理
我们点击第二页,看看浏览器 url 的变化
https://movie.douban.com/celebrity/1011562/photos/?type=C&start=30&sortby=like&size=a&subtype=a
发现浏览器 url 增加了几个参数
再点击第三页,继续观察 url
https://movie.douban.com/celebrity/1011562/photos/?type=C&start=60&sortby=like&size=a&subtype=a
通过观察可知,这里的参数,只有 start 是变化的,即为变量,其余参数都可以按照常理来处理
同时还可以知道,这个 start 参数应该是起到了类似于 page 的作用,start = 30 是第二页,start = 60 是第三页,依次类推,最后一页是 start = 420。
于是我们处理分页的代码也呼之欲出了
首先将上面处理 HTML 页面的代码封装成函数
defget_poster_url(res):content=BeautifulSoup(res,"html.parser")data=content.find_all('div',attrs={'class':'cover'})picture_list=[]fordindata:plist=d.find('img')['src']picture_list.append(plist)returnpicture_list
然后我们在另一个函数中处理分页和调用上面的函数
deffire():page=0foriinrange(0,450,30):print("开始爬取第%s 页"%page)url='https://movie.douban.com/celebrity/1011562/photos/?type=C&start={}&sortby=like&size=a&subtype=a'.format(i)res=requests.get(url).textdata=get_poster_url(res)page+=1
此时,我们所有的海报数据都保存在了 data 变量中,现在就需要一个下载器来保存海报了
defdownload_picture(pic_l):ifnotos.path.exists(r'picture'):os.mkdir(r'picture')foriinpic_l:pic=requests.get(i)p_name=i.split('/')[7]withopen('picture'+p_name,'wb')asf:f.write(pic.content)
再增加下载器到 fire 函数,此时为了不是请求过于频繁而影响豆瓣网的正常访问,设置 sleep time 为1秒
deffire():page=0foriinrange(0,450,30):print("开始爬取第%s 页"%page)url='https://movie.douban.com/celebrity/1011562/photos/?type=C&start={}&sortby=like&size=a&subtype=a'.format(i)res=requests.get(url).textdata=get_poster_url(res)download_picture(data)page+=1time.sleep(1)
下面就执行 fire 函数,等待程序运行完成后,当前目录下会生成一个 picture 的文件夹,里面保存了我们下载的所有海报
核心代码讲解
下面再来看下完整的代码
importrequestsfrombs4importBeautifulSoupimporttimeimportosdeffire():page=0foriinrange(0,450,30):print("开始爬取第%s 页"%page)url='https://movie.douban.com/celebrity/1011562/photos/?type=C&start={}&sortby=like&size=a&subtype=a'.format(i)res=requests.get(url).textdata=get_poster_url(res)download_picture(data)page+=1time.sleep(1)defget_poster_url(res):content=BeautifulSoup(res,"html.parser")data=content.find_all('div',attrs={'class':'cover'})picture_list=[]fordindata:plist=d.find('img')['src']picture_list.append(plist)returnpicture_listdefdownload_picture(pic_l):ifnotos.path.exists(r'picture'):os.mkdir(r'picture')foriinpic_l:pic=requests.get(i)p_name=i.split('/')[7]withopen('picture'+p_name,'wb')asf:f.write(pic.content)if__name__=='__main__':fire()
fire 函数
这是一个主执行函数,使用 range 函数来处理分页。
- range 函数可以快速的创建整数列表,在 for 循环时及其好用。函数中的0代表从0开始计数,450代表一直迭代到450,不包含450,30代表步长,即每次递增的数字间隔。range(0, 450, 30),依次会输出:0,30,60,90 …
- format 函数,是一种字符串格式化方式
- time.sleep(1) 即为暂停1秒钟
get_poster_url 函数
这个就是解析 HTML 的函数,使用的是 BeautifulSoup
- 通过 find_all 方法查找所有 class 为 “cover” 的 div 元素,返回的是一个列表
- 使用 for 循环,循环上一步拿到的列表,取出 src 的内容,append 到列表中
- append 是列表的一个方法,可以在列表后面追加元素
download_picture 函数
简易图片下载器
- 首先判断当前目录下是否存在 picture 文件夹,os.path.exists
- os 库是非常常用用来操作系统相关的命令库,os.mkdir 就是创建文件夹
- split 用于切割字符串,取出角标为7的元素,作为存储图片的名称
- with 方法用来快速打开文件,打开的进程可以自行关闭文件句柄,而不再需要手动执行 f.close() 关闭文件
总结
本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法,并通过一个实际的例子完成了从分析网页,到数据存储的全过程。其实爬虫,无外乎模拟请求,解析数据,保存数据。
当然有的时候,网站还会设置各种反爬机制,比如 cookie 校验,请求频度检查,非浏览器访问限制,JS 混淆等等,这个时候就需要用到反反爬技术了,比如抓取 cookie 放到 headers 中,使用代理 IP 访问,使用 Selenium 模拟浏览器等待方式。
由于本课程不是专门的爬虫课,这些技能就留待你自己去探索挖掘啦。
本文由摸索网(https://www.lnmosuo.com)发布,不代表摸索网立场,转载联系作者并注明出处: