创建工程
scrapy startproject (projectname)
进入工程文件
创建爬虫源文件
scrapy genspider (spidename) (url)
编写对应的代码在爬虫文件中
- parse 中的 response 解析 想要使用数据,必须使用 extract()提取数据 extract():返回列表 extract_first():返回一个数据
- 创建项目对象,将数据放入项目
- 用 yield 将项目传入管道
在 pipeline 中完成数据的储存
class 类名(): def process_item(self, item, spider): item #数据 spider #爬虫 return item #如果不return下一个管道收不到数据
设置 setting 将 pipeline 进行生效设置
执行工程
scrapy crawl (spidename)
默认会输出工程的默认信息