Techincal Diary

Jump to bottom Edit New page

ccya edited this page Nov 14, 2013 · 2 revisions

11/13/2013

已完成：

BeautifulSoup下的网页分析，获取所有相关微博以及用户信息
获取翻页地址

未完成：

使用 urllib2 中的urlopen获得的网页源代码是js未处理过的，需要一个支持js的网页爬虫文件
或者自己抓取js code，然后进行分析

Note for Future:

可以使用QtWebkit，来运行javascript，但是不知道和python的关系. http://mobile.51cto.com/web-287594.html
其他python下支持运行js文件的插件有：

a)http://codinglife.sinaapp.com/?p=189 （这里的例子是关于‘selenium’的）
b) spidermokey使用实例：http://www.cnblogs.com/asmblog/archive/2013/05/07/3063809.html