一个用python写的用命令行看糗百的小工具

读书百遍,其义自现

  最近正在学习正则表达式,抛弃了bs4,写了一个用命令行看糗百的小爬虫(爬了糗百最近7天最热门的糗事儿),还算是比较好用的,经过了精心的排版,阅读起来轻松无压力,代码开源在这里,大家相互学习。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
#!/usr/bin/python
#coding:utf-8
#作者:Byron
#博客:http://jiabin.tk
import urllib2
import re
#定义程序主函数
def qiubai(page):
url = "http://www.qiushibaike.com/week/page/%d" % page
re_qb = re.compile(r'detail.*?<a.*?>(.*?)<.*?title="(.*?)">\s*(.*?)\s*?<',re.DOTALL)
html = urllib2.urlopen(url).read()
my_qiubai = re_qb.findall(html)
n = len(my_qiubai)
for i in range(n):
for k in range(3):
print my_qiubai[i][k]
s = raw_input("回车继续")
if s == "q":
exit()
print "-"*40
#定义程序循环体
def for_qb():
for page in range(int(p),280):
print "-"*18 + "第" + str(page) + "页" + "-"*18
qiubai(page)
#该部分代码的目是为了设计的严谨,尽可能的使程序不发生崩溃
def if_qb():
global p
p = raw_input("输入要看的页数1~280:")
if p == "q":
exit()
elif not p.isdigit() or p =="0" or int(p) > 280:
if_qb()
else:
for_qb()
print "-"*40
print "糗百命令行版——Byron"
print "一入糗百深似海,从此节操是路人"
print '输入"q"退出程序'
print "-"*40
if_qb()

update:2013-9-9 19:05

fix bug:

糗百每页的内容有时候会发生变化,程序有时候会range出界。

现在加了一个变量,计算这页有多少条内容,之后再range,就不会出错了。

感谢@HankZhou 的反馈。

赞赏作者半杯摩卡