博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
8.Python爬虫实战一之爬取糗事百科段子
阅读量:5057 次
发布时间:2019-06-12

本文共 1051 字,大约阅读时间需要 3 分钟。

大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。

首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。

1.抓取糗事百科热门段子

2.过滤带有图片的段子

1 #coding:utf-8 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url = 'https://www.qiushibaike.com/hot/page/1/'+str(page) 7 user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)' 8 headers = {
'User-Agent':user_agent} 9 10 try:11 request = urllib2.Request(url,headers=headers)12 response = urllib2.urlopen(request)13 qiubaiPattern =re.compile('
.*?content.*?span>(.*?)
(.*?)<',re.S)14 infos = re.findall(qiubaiPattern,response.read().decode('utf-8'))15 for info in infos:16 for a in info:17 str = a.replace('
','\r\n') #将段子正文中的
替换成回车18 print str.strip() #删除字符中的首尾空格19 20 except urllib2.URLError,e:21 if hasattr(e,'code'):22 print e.code23 if hasattr(e,'reason'):24 print e.reason

在这里不打算详细讲解这个代码,以后有空了再回来补上 嘻嘻

转载于:https://www.cnblogs.com/stephenmc/p/7487168.html

你可能感兴趣的文章
python安装第三方库的步骤
查看>>
Oracle与Sql server 在SQL上的不同
查看>>
Sublime Text 3手动安装Sublimerge文件对比插件
查看>>
信息论与编码相关知识点
查看>>
深入浅出MongoDB应用实战开发
查看>>
memcached配置 启动
查看>>
IJ:IntelliJ IDEA安装
查看>>
ASP.NET Web Pages:帮助器
查看>>
软件测试课后习题(二)
查看>>
数字和表达式
查看>>
如何用纯 CSS 创作一个行驶中的火车 loader
查看>>
js数据结构与算法--递归
查看>>
原生js实现问卷调查
查看>>
Week5——团队选题&需求分析
查看>>
cookie的使用
查看>>
打造自己个性的notepad ++
查看>>
HDU 4479 Shortest path 带限制最短路
查看>>
简单之美
查看>>
C# 将一个DataTable的结构直接复制到另一个DataTable
查看>>
CF1073G Yet Another LCP Problem 后缀自动机 + 虚树 + 树形DP
查看>>