爬虫源文件
name:当前源文件的唯一标识allowed_domains:允许请求的域名start_urls:起始的 url 列表,作用:列表中存储的 url 会被 get 发送parse 方法:解析服务器返回的响应对象的解析方法
settings
- 选择日志类型
LOG_LEVEL = “日志的级别”
日志的级别
- DEBUG
- INFO
- WARNING
- ERROR
- CRITICAL
- 是否遵守 robots ROBOTSTXT_OBEY
- UA USER_AGENT
- 管道 ITEM_PIPELINES key:管道路径 value:管道的优先级,数越小,优先级越高
items
定义项目格式 name = scrapy.Field()
pipelines
优先级越高,先执行 ImagesPipeline:处理图片的下载