阿里云飞天总体架构.ppt

上传人:仙人指路1688 文档编号:2203280 上传时间:2023-01-30 格式:PPT 页数:30 大小:1.30MB
返回 下载 相关 举报
阿里云飞天总体架构.ppt_第1页
第1页 / 共30页
阿里云飞天总体架构.ppt_第2页
第2页 / 共30页
阿里云飞天总体架构.ppt_第3页
第3页 / 共30页
阿里云飞天总体架构.ppt_第4页
第4页 / 共30页
阿里云飞天总体架构.ppt_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《阿里云飞天总体架构.ppt》由会员分享,可在线阅读,更多相关《阿里云飞天总体架构.ppt(30页珍藏版)》请在三一办公上搜索。

1、飞天总体架构,1,2,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,什么是飞天?,飞天操作系统(项目代号“Apsara”)是阿里云公司自主研发的分布式计算平台。它的主要设计目标是通过构建一套综合性的软硬件系统,使得用户(或应用系统)可以像使用一台计算机一样,便捷地使用数以千计的服务器的存储资源和计算资源。飞天通过对软件系统的合理分层,使得“强调响应速度的在线服务(Online Service)”和“强调处理数据吞吐量的离线任务(Batch Processing Job)”可以共享一个物理集群的计算、存储和网络资源,以期大幅提示大规模集群的使用效率。,

2、3,飞天体系结构,4,飞天体系结构-1,分布式系统底层服务:主要提供分布式环境下所需要的协调服务(女娲)、远程过程调用(夸父)、以及提供系统安全的钟馗模块。分布式文件系统:主要提供一个海量的、可靠的、可扩展的数据存储服务,将集群中各个节点的存储能力聚集起来,并能够自动屏蔽软硬件故障,为用户提供不间断的数据访问服务。,5,飞天体系结构-2,任务调度:为集群系统中的任务提供调度服务,同时支持强调响应速度的在线服务(Online Service)和强调处理数据吞吐量的离线任务(Batch Processing Job)集群监控和部署:对集群的状态和事件进行监控,对异常事件产生警报和记录;为运维人员提

3、供整个飞天系统以及上层应用的部署和配置管理,支持在线集群扩容和应用服务的在线升级。,6,7,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,分布式基础架构,命名服务女娲女娲(Nuwa)系统为飞天平台提供高可用的协调服务(Coordination Service),是整个飞天系统的一个核心服务,它的作用采用类似文件系统的树形命名空间来让分布式进程互相协同工作。女娲系统与 Google 的 Chubby 和 Hadoop 的 ZooKeeper系统的功能与实现相似。女娲服务存储了大量的键值对(Key-Value Pair)女娲支持 Publish/Subs

4、cribe 模式女娲还可以用来实现负载均衡,8,分布式基础架构,远程过程调用(RPC)夸父夸父(Kuafu)是飞天平台中负责网络通信的组件,它提供了一个RPC 的接口,简化编写基于网络的分布式应用。异步调用:RPC 函数调用时不等接收到结果会立即返回;用户必须通过显式调用接收函数取得请求结果。同步调用:RPC 函数调用时会等待,直到接收到结果才返回。在实现中,同步调用是通过封装异步调用来实现的。,9,分布式基础架构,安全管理钟馗飞天操作系统中安全管理的机制提供了以用户为单位的身份认证和授权,以及对集群数据资源和服务进行的访问控制。用户的身份认证(Authentication)是基于密钥机制的用

5、户对资源的访问控制是基于Capability机制进行授权(Authorization)的。Capability类似于乘地铁的地铁票,10,11,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,分布式文件系统盘古,飞天操作系统中数据存储是由分布式文件系统(项目代号盘古 Pangu)完成的。盘古与 Google 文件系统(GFS)和 Hadoop 的 HDFS 的设计目标有一致的部分,都是将大量廉价机器的存储资源聚合在一起,为用户提供大规模、高可靠、高吞吐量、高可用和可扩展的存储服务,是集群操作系统中的一个重要组成部分。盘古还能很好的支持在线应用的低延时需

6、求,这是GFS和HDFS所不具备的。,12,盘古的特点,大规模:能够支撑 5000 台规模的大集群,支持 10PB 量级的存储大小。高可靠:保证数据和元数据(Metadata)是持久保存并能够正确访问的,保证所有数据存储在处于不同机架的三个节点上面。高可用:保证用户能够不中断地访问数据,降低系统的不可用服务时间。高吞吐量:运行时系统 I/O 吞吐量能够随机器规模线性增长,保证响应时间。高可扩展性:保证系统的容量能够通过增加机器的方式得到自动扩展,下线机器存储的数据能够自动迁移到新加入的节点上。,13,盘古系统设计,14,主服务器Master:存储元数据块服务器Chunk server:存储大块

7、的文件(64M/块)客户端读盘古文件:主服务器获得元数据信息块服务器传输数据客户端写盘古文件:建立客户端到3个块服务器的连接客户端写入主副本主副本向其他副本发送数据,盘古针对在线应用的优化,OSS、OTS等要求低延时的数据读写,ECS要求随机写的能力日志文件通过多种方法优化延时:设置高优先级、Client直接写多份拷贝、写成功不经过Master确认等随机访问文件:运行用户随机写,15,16,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,任务调度伏羲,伏羲(Fuxi)是飞天平台的调度系统,同时也为应用开发提供了一套编程基础框架。与盘古一样,伏羲也必须在

8、一个系统架构下能同时支持强调响应速度的在线服务和强调处理数据吞吐量的离线任务。在伏羲中,这两类应用分别简称为 Service和 Job。,17,伏羲的体系结构,18,伏羲,在线服务调度:在飞天平台上,每个具体的 Service 都有一个 Service Master 和多个不同角色(Role)的 Service Worker,它们一起协同工作来完成整个服务的功能。能够支撑 5000 台规模的大集群,支持 10PB 量级的存储大小。每个Service worker负责自己的分片。离线任务调度:在飞天平台上,一个离线任务(Job)的执行过程被抽象为一个有向无环图(DAG):图上每个顶点对应一个Ta

9、sk,每条边对应一个 Pipeline。一个连接的两个 Task 的 Pipeline 表示前一个 Task 的输出是后一个 Task 的输入。,19,20,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,集群监控神农,神农(Shennong)是飞天平台上负责信息收集、监控和诊断的系统。它通过在每台物理机器上部署轻量级的信息采集模块,获取各个机器的操作系统与应用软件运行状态,监控集群中的故障,并通过分析引擎对整个飞天操作系统的运行状态进行评估。,21,盘古的特点,神农系统包括 Master、Inspector 和 Agent 三部分:Master:负责

10、管理所有神农 Agent,并对外提供统一的接口来处理神农用户的订阅(Subscription)请求,在集群中只要一个 Master。Inspector:是部署在每一台机器上的进程,负责采集当前机器和进程的通用信息,并实时发送给该机器上的神农 Agent。Agent:是部署在每台物理机器的后台(Daemon)程序。Agent 会接受来自应用的 Inspector 写入的信息。,22,23,目录,飞天体系结构分布式基础架构分布式文件系统-盘古任务调度-伏羲集群监控-神农飞天应用,飞天应用,阿里云搜索阿里云邮箱金融数据仓库渲染云计算,24,阿里云搜索服务,阿里云搜索是基于飞天操作系统开发的一个互联网

11、搜索服务,能够处理百亿数量的网页信息:包括网页质量分析、去除重复网页、链接分析、网页分类、网页排序和建立倒排索引等任务。计算特点:搜索服务需要处理大量数据 搜索服务的计算任务类型多,关系复杂 搜索服务中计算任务需要的网络传输带宽巨大运用飞天:阿里云搜索的数据存储利用了飞天平台的盘古分布式文件系统 搜索的计算任务通过飞天的伏羲系统进行调度,25,阿里云邮箱服务,阿里云邮箱是基于大规模分布式计算系统的互联网邮箱服务,可以满足(移动)互联网个人用户、中小企业和运营商等不同对象的邮箱服务需求,提供可定制的、个性化的邮箱服务。邮箱服务支持 TB 级邮箱容量和 GB 级超大附件阿里云邮箱综合使用了多层防御

12、措施来防范垃圾邮件、病毒木马、网络钓鱼等安全威胁。邮件数据的存储利用了飞天平台的分布式文件系统(盘古)。邮箱服务的核心服务层中采用云平台的统一调度伏羲系统,26,金融数据仓库,阿里巴巴金融是阿里巴巴集团为小微企业和网商个人创业者提供互联网化、批量化、数据化金融服务的公司。在确定放贷前,阿里金融会在自主的数据分析平台上分析企业的信用评价和放贷额度:处理能力强大,能够解决传统数据仓库不能处理的大规模数据。成本低廉,用户根据自身的实际需求来租用需要的计算能力,节省了初期的软硬件投入 服务伸缩灵活,由于采取租用的方式,可以随着业务规模的增长或减少动态调整所需的计算能力,27,渲染云计算,渲染云计算是基于阿里云计算公司自主研发的飞天大规模分布式计算系统的弹性自助式渲染农场服务。该系统通过飞天超强的计算、存储和负载均衡能力,能高效完成电影、动画、高清图像等的渲染任务。目前阿里云公司的渲染云计算平台拥有上万核的高配服务器的集群规模,由飞天操作系统提供安全、稳定的基础架构和海量的数据存储能力。渲染云为用户提供了渲染任务提交、实时管理、任务监控、渲染结果查看的批量化处理流程,能够对渲染场景进行智能解析,极大的提高了渲染的效率和质量,28,问题,构建一个云计算操作系统需要考虑哪几方面核心因素?,29,30,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 建筑/施工/环境 > 项目建议


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号