/

理解计算机 ... scrapy

理解计算机 / python / 爬虫 / scrapy

/ scrapy文件详情

返回文章列表

scrapy文件详情

2024/6/6 理解计算机/python/爬虫/scrapy

爬虫源文件

TEXT

name:当前源文件的唯一标识
allowed_domains:允许请求的域名
start_urls:起始的 url 列表,作用:列表中存储的 url 会被 get 发送
parse 方法:解析服务器返回的响应对象的解析方法

settings

选择日志类型 LOG_LEVEL = “日志的级别” 日志的级别
- DEBUG
- INFO
- WARNING
- ERROR
- CRITICAL
是否遵守 robots ROBOTSTXT_OBEY
UA USER_AGENT
管道 ITEM_PIPELINES key:管道路径 value:管道的优先级,数越小,优先级越高

items

定义项目格式 name = scrapy.Field()

pipelines

优先级越高,先执行 ImagesPipeline:处理图片的下载

文章目录

爬虫源文件
settings
items
pipelines