大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。
首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。
1.抓取糗事百科热门段子
2.过滤带有图片的段子
1 #coding:utf-8 2 import urllib 3 import urllib2 4 import re 5 page = 1 6 url = 'https://www.qiushibaike.com/hot/page/1/'+str(page) 7 user_agent = 'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)' 8 headers = { 'User-Agent':user_agent} 9 10 try:11 request = urllib2.Request(url,headers=headers)12 response = urllib2.urlopen(request)13 qiubaiPattern =re.compile('.*?content.*?span>(.*?) (.*?)<',re.S)14 infos = re.findall(qiubaiPattern,response.read().decode('utf-8'))15 for info in infos:16 for a in info:17 str = a.replace(' ','\r\n') #将段子正文中的 替换成回车18 print str.strip() #删除字符中的首尾空格19 20 except urllib2.URLError,e:21 if hasattr(e,'code'):22 print e.code23 if hasattr(e,'reason'):24 print e.reason
在这里不打算详细讲解这个代码,以后有空了再回来补上 嘻嘻