熊窝 -=某熊吐槽专用Blog=-: 【蛋痛】吧饭否的老底翻出来

2009年5月25日星期一

【蛋痛】吧饭否的老底翻出来

蛋痛的饭否搜索抓取，开始的时候被饭否耍了一下，url里面有个p的参数是控制最大搜索数量的。
抓取结果保存为python模块（Python3.0）


#!/usr/bin/env python
# -*- coding: UTF-8 -*-

import urllib.request
import re

key_word = '番茄操蛋'
key_enc = urllib.parse.quote(key_word)

#不用代理的无视
proxy_support = urllib.request.ProxyHandler({"http" : "http://192.168.60.250:8080"})
opener = urllib.request.build_opener(proxy_support)

urllib.request.install_opener(opener)

def load(url):
 f = urllib.request.urlopen('http://fanfou.com' + url)
 resp = f.read().decode("utf-8")
 f.close()
 return resp

user_re = re.compile(r'<a href="/(?P<uid>[^"]+?)" title="(?P<nick>[^"]+?)" class="avatar"><img src="(?P<avatar>[^"]+?)".+?<span class="content">(?P<content>.+?)</span>.+?<a href="/statuses/(?P<mid>[^"]+?)" class="time" title="(?P<time>[^"]+?)">')
next_re = re.compile(r'<a href="(?P<url>[^"]+?)">下一页</a>')

collected_data = [];
import codecs
f = codecs.open('output_'+key_word+'.py','w','utf-8')
f.write('''
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
[
''')
def parse_page(text):
 for m in user_re.finditer(text):
  data = m.groupdict()
  f.write(str(data))
  f.write(',\n')
  collected_data.append(data)
  print(m.group('mid'),'@',m.group('time'))
  mid = m.group('mid')
  print('---')
 
 m = next_re.search(text)
 if m:
  return '/search?q='+key_enc+'&noframe=yes&m='+mid
 else:
  return None

url = '/search?q='+key_enc+'&noframe=yes'
while url:
 text = load(url)
 url = parse_page(text)
 print(url)
 
f.write(']\n')
f.close();

0 人次吐槽:

发表评论

声明

本Blog的内容完全是复制粘贴，本人并不明白其意思，故本人不对以上内容负法律责任，请不要跨省追捕。要详查请自己联系原作者，谢谢！
同时，基于以上原因，本人也不能保证本Blog内所提供信息的真实性与准确性，请读者自行判断。
欲查看完整的免责声明，请移步这里
另：本Blog位于美国，符合美国法律，不适用中华人民共和国刑法中关于非法复制粘贴的条款，河蟹退散。

熊窝 -=某熊吐槽专用Blog=-

2009年5月25日星期一

【蛋痛】吧饭否的老底翻出来

0 人次吐槽:

发表评论

Neko!

声明

Flag Counter

我的简介

饭否

Friendly Links

博客列表

访问统计

Google Friend Connect

博客归档

标签

熊窝 -=某熊吐槽专用Blog=-

2009年5月25日星期一

【蛋痛】吧饭否的老底翻出来

0 人次吐槽:

发表评论

Neko!

声明

Flag Counter

我的简介

饭否

Friendly Links

博客列表

访问统计

Google Friend Connect

来喝茶

博客归档

标签