如何入门 Python 爬虫

如题所述

第1个回答  2015-05-25
可以先从简单的开始,在熟悉了Python语法后,学习用 urllib 和 urllib2 爬虫,使用 BeautifulSoup 分析结果。进一步学习多线程抓取。
如果要学习一个框架,可以学 Scrapy,并学习将XPath得到的结果存入到SQL或Redis等数据集中以便方便索引查找。
简单的学会后,再开始练习登录界面(带Cookie),再进一步使用无图形界面的js处理工具,用来处理JS界面的网页。
当然,这些抓取数据只是数据处理的第一步,难点还是在处理这些数据结果。不过已经不是爬虫的范围了。本回答被提问者和网友采纳
相似回答
大家正在搜