当前位置:首页 > 云数据采集中心及大数据计算平台建设方案 - 图文
大降低了普通用户基于源码修改分布式文件系统的门槛,仅仅需要
通用的 C 程序设计技能,而不需要特别的内核编程经验。
? 模块化堆栈式架构(Modular Stackable Architecture):分布式文件系统
采用模块化、堆栈式的架构,可通过灵活的配臵支持高度定制化的 应用环境,比如大文件存储、海量小文件存储、分布式文件系统、 多传输协议应用等。每个功能以模块形式实现,然后以积木方式进 行简单的组合,即可实现复杂的功能。比如,Replicate 模块可实现 RAID1,Stripe 模块可实现 RAID0,通过两者的组合可实现 RAID10 和 RAID01,同时获得高性能和高可靠性。
? 原始数据格式存储(Data Stored in Native Formats):分布式文件系统
以原始数据格式(如 EXT3、EXT4、XFS、ZFS)储存数据,并实现 多种数据自动修复机制。因此,系统极具弹性,即使离线情形下文 件也可以通过其他标准工具进行访问。如果用户需要从分布式文件 系统中迁移数据,不需要作任何修改仍然可以完全使用这些数据。 ? 无元数据服务设计(No Metadata with the Elastic Hash Algorithm):对
Scale-Out 存储系统而言,最大的挑战之一就是记录数据逻辑与物理 位臵的映像关系,即数据元数据,可能还包括诸如属性和访问权限 等信息。传统分布式存储系统使用集中式或分布式元数据服务来维 护元数据,集中式元数据服务会导致单点故障和性能瓶颈问题,而 分布式元数据服务存在性能负载和元数据同步一致性问题。特别是 对于海量小文件的应用,元数据问题是个非常大的挑战。分布式文 件系统独特地采用无元数据服务的设计,取而代之使用算法来定位
27
文件,元数据和数据没有分离而是一起存储。集群中的所有存储系
统服务器都可以智能地对文件数据分片进行定位,仅仅根据文件名 和路径并运用算法即可,而不需要查询索引或者其他服务器。这使 得数据访问完全并行化,从而实现真正的线性性能扩展。无元数据 服务器极大提高了分布式文件系统的性能、可靠性和稳定性。 ? 基于标准协议:分布式文件系统存储服务支持 NFS, CIFS, HTTP, FTP
以及分布式文件系统原生协议,完全与 POSIX 标准兼容。
(5) 分布式文件系统技术及性能指标:
? 支持设备数量:最大百万台以上
? 支持存储容量:最大 1024PB 以上
? 客户端的数量:最大支持上亿并发
? 网络支持:以太网:1Gbps、10Gbps/INFINIBAND:10Gbps、40Gbps
? 文件副本数量:任意(缺省 1 份)
? 协议: NFS/CIFS/HTTP/FTP/WEB DAV,及原生协议,兼容 POSIX
标准
? 支持文件数量:最大上亿个文件
? 最大单个文件:16TB
(6) S2DFS 与 HDFS 的比较
对比项 架构类型 存在方式 使用方式 HDFS(GFS) 带元数据库中心架构 (瓶颈及故障易发生点) S2DFS 全分布式去中心架构 分布式文件系统软件,基于 x86 平台 CLI/REST API 28
NATIVE CLIENT/CIFS/NFS 标准 协议
系统可用性 数据可用性 数据定位方式 同步方式 负载均衡 支持网络 网络写:读(万兆/单流) 读(1*20GB)(万兆) 写(1*20GB)(万兆) 读/写(千兆)
低 复制 INode 异步 自动 千兆以太网 约 100MB/s:160MB/s 约 125s 约 200s (应用代码与平台无关性,便于移 植和维护) 高 类 RAID Hash 同步 自动 千兆/万兆以太网,IB 网 约 800MB/s:1000MB/s 约 25s 约 20s 差距不大
2.3.2 分布式并行计算技术
(1) 概述 并行计算技术真正将传统运算转化为并行运算,从而更加充分的利用广泛部
署的普通计算资源实现大规模的运算和应用的目的,在此基础上为第三方开发者 提供通用平台,为客户提供并行服务。这里主要为门户网站提供作业调度平台, 实现日志分析,性能优化,全文检索,视频处理,用为分析等等的支撑平台。
用户通过统一计算平台把任务分派给系统内的多个节点,调度节点资源执行 任务,发挥多核并行处理优势,提升运算效率,充分运用网络内的计算资源达到 解决大规模计算问题的目的。
29
(2) 分布式并行计算架构图
分布式并行计算架构图
(3) 作业调度及计算过程
(4) 分布式并行计算技术特点
? 池化资源管理
利用池化技术,任何一台联在互联网上的普通 PC 机从硬件到软件,
30
共分享92篇相关文档