Python 爬虫第一篇(urllib+regex)
爬虫的主要用途即从网站上获取网页,并将网页中的有用信息解析出来。从网站上获取网页内容可以通过 python 内置的 urllib 板块来实现,至于信息的解析说起来比较复杂,python 中可以使用的板块也有很多,今天我们主要使用正则表达式「python 内置的 re 板块」来实现数据的解析。
前面有对 python 内置的 urllib 板块和 re 板块做过简单的详情有兴趣的朋友可以理解一下
- 初识 Python 网络请求库 urllib
- Python 正则表达式
今天我们准备使用 urllib 和 re 板块来实现爬虫的功能将网页中的数据数据读取出来。
确定目标
我们的目标是获取立创商城上元器件的阶梯价格「不同的采购数量对应的价格不同」。先来看下网页的图片
image
我们想要的数据在这里
image
实施方案
首先我们可以后去到该网页的网址 ‘https://item.szlcsc.com/213095.html’。可以使用 urllib.urlopen 方法读取网页内容
url = 'https://item.szlcsc.com/213095.html'response = urllib2.urlopen(url)html_text = response.read().decode('utf-8')
要获取阶梯价格的信息,我们先来看一下这段所对应的 html 内容:
image
从图上可以看出每个阶梯价格有 tr 标签进行分割,而每行的中的数量和对应的价格使用 td 标签进行显示。我们可以使用以下正则表达式来提取数量和价格内容。
# 提取每个阶梯价格的正则表达式'<tr class="sample_list_tr">(.*?)</tr>'# 提取一行中的数量'<td width="40%" align="right">(.*?)</td>'# 提取一行中的价格"<p class='goldenrod'>(.*?)</p>"
现在我们来看一下完整的程序
# -*- coding:utf-8 -*-import urllib2import redef find_number(str): ''' 获取每一行中的数量范围 ''' res = r'<td width="40%" align="right">(.*?)</td>' find_str = re.findall(res, str, re.S)[0] # 去除单位 res_2 = '[1-9]{1}[\\d ~\\s]*\\d' find_str = re.findall(res_2, find_str, re.S)[0] # 去除字符串中的空格 strinfo = re.compile('[\\s]') return re.sub(strinfo, '', find_str)def find_price(str): ''' 获取每一行中的价格信息 ''' res = r"<p class='goldenrod'>(.*?)</p>" find_str = re.findall(res, str, re.S) # 若无对应的价格是显示 None if len(find_str): # 去除价格中的单位 res_2 = '[1-9]{1}[\\d\\.]*' find_str = re.findall(res_2, find_str[0], re.S) return find_str[0] else: return 'None'url = 'https://item.szlcsc.com/213095.html'# 读取网页内容,并解码相关内容response = urllib2.urlopen(url)html_text = response.read().decode('utf-8')res_tr = r'<tr class="sample_list_tr">(.*?)</tr>'m_tr = re.findall(res_tr, html_text, re.S)print '%4s | %10s | %5s' %('序号', '数量', '单价')print "-------------------------"for n, value in enumerate(m_tr): print '%4d | %10s | %5s' %(n + 1, find_number(value), find_price(value)) print "-------------------------"
检验结果
代码已经编写完成,现在我们来验证一下执行的效果,以上代码的执行结果如下:
序号 | 数量 | 单价------------------------- 1 | 1~9 | 9.21------------------------- 2 | 10~29 | 6.81------------------------- 3 | 30~99 | 6.37------------------------- 4 | 100~499 | 5.93------------------------- 5 | 500~999 | 5.73------------------------- 6 | 1000 | 5.64-------------------------
比照执行结果与前面我们看到的网页信息,可以看到程序正常执行且得到正确的结果。
想在我们将网址更换为 ‘https://item.szlcsc.com/8796.html’,网页显示如下:
image
此时我们再次执行程序,得到以下结果:
序号 | 数量 | 单价------------------------- 1 | 1~9 | 13.82------------------------- 2 | 10~29 | 11.75------------------------- 3 | 30~99 | 11.37------------------------- 4 | 100~499 | 10.99------------------------- 5 | 500~999 | 10.82------------------------- 6 | 1000~1999 | 10.61------------------------- 7 | 2000 | None-------------------------
可以看到以上结果与网页中的内容完全相同,代码完成了我们的预约功能。
注意:此代码在 python 2.7.10 版本验证。
说明
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Python 爬虫第一篇(urllib+regex)
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是摆设,本站源码仅提供给会员学习使用!
7. 如遇到加密压缩包,请使用360解压,如遇到无法解压的请联系管理员
开心源码网 » Python 爬虫第一篇(urllib+regex)