测试开发技术网站
博客
设计
设计
开发
Python
测试
unittest
运维
Linux基础应用
CI/CD
CI/CD
数据库
数据库
云计算
云计算
云原生
云原生
爬虫
爬虫
数据分析
数据分析
人工智能
人工智能
登录
注册
Scrapy----Scrapy架构及工作流程
收藏本文
作者:redrose2100 类别: 日期:2023-02-25 14:27:43 阅读:1071 次 消耗积分:0 分
[TOC] ![](https://redrose2100.oss-cn-hangzhou.aliyuncs.com/img/50c12158-8473-11ee-a4ef-0242ac110004.png) # 一、Scrapy架构图 scrapy的架构图如下,红色箭头表示工作流程 ![](https://redrose2100.oss-cn-hangzhou.aliyuncs.com/img/896701a8-b516-11ed-ac24-0242ac110002.png) # 二、Scrapy的组成 * Scrapy Engine Scrapy Engine主要用来协调数据流在Scrap各个组件之间工作的 * Schedule 执行的调度器,简单点来说可以理解为一个队列 * Downloader 下载器,简单点理解就是执行request的组件 * Spiders 负责提供第一个url,并在后续response中解析新的需要请求的url * Item Piplines 负责对获取到的响应数据进行数据清洗,然后对数据进行存储,可以存储到多个中存储类型中看比如文件、数据库等 Scrapy主要就是这五个部分,当然还有一些中间件,主要在两个组件之间锁一些中间处理 # 三、Scrapy工作流程 (1)Spiders 将第一条url发送给Scrapy Engine (2)Scrapy Engine把请求发送给Scheduler调度器 (3)Scheduler调度器调度好执行顺序后传递给Scrapy Engine (4)Scrapy Engine根据Schedule的调度,将request请求发送给Downloader (5)Downloader请求完成后,将请求结果返回给Scrapy Engine (6)Scrapy Engine收到响应结果后,将响应结果传递给Spider,Spider可根据返回结果分析是否有新的的url传递给Scrapy 继续请求 (7)Spider将分析结果传递给Scrapy Engine (8)Scrapy Engine将响应结果继续传递给Item Piplines供对响应数据进行清洗架构并存储
始终坚持开源开放共享精神,同时感谢您的充电鼓励和支持!
版权所有,转载本站文章请注明出处:redrose2100, http://blog.redrose2100.com/article/542
上一篇:
Fiddler----Fiddler的下载与安装
下一篇:
MySQL----MySQL常用的数据库数据表备份与恢复的方法
搜索
个人成就
出版书籍
《Pytest企业级应用实战》
测试开发技术全栈公众号
测试开发技术全栈公众号
DevOps技术交流微信群
加微信邀请进群
常用网站链接
开源软件洞察
云原生技术栈全景图
Python语言官方文档
Golang官方文档
Docker官方文档
Jenkins中文用户手册
Scrapy官方文档
VUE官方文档
Harbor官方文档
openQA官方文档
云原生开源社区
开源中国
Kubernetes中文文档
Markdown语法官方教程
Kubernetes中文社区
Kubersphere官方文档
BootStrap中文网站
JavaScript中文网
NumPy官方文档
Pandas官方文档
GitLink确实开源网站
数据库排名网站
编程语言排名网站
SEO综合查询网站
数学加减法练习自动生成网站
Kickstart Generator
文章分类
最新文章
最多阅读
特别推荐
×
Close
登录
注册
找回密码
登录邮箱:
登录密码:
图片验证码:
注册邮箱:
注册密码:
邮箱验证码:
发送邮件
注册邮箱:
新的密码:
邮箱验证码:
发送邮件