当前位置:首页 > 并行发展史
计算机发展
]从20世纪40年代开始的现代计算机发展历程可以分为两个明显的发展时代:串行计算时代、并行计算时代。每一个计算时代都从体系结构发展开始,接着是系统软件(特别是编译器与操作系统)、应用软件,最后随着问题求解环境的发展而达到顶峰。 ????并行计算机是由一组处理单元组成的。这组处理单元通过相互之间的通信与协作,以更快的速度共同完成一项大规模的计算任务。因此,并行计算机的两个最主要的组成部分是计算节点和节点间的通信与协作机制。并行计算机体系结构的发展也主要体现在计算节点性能的提高以及节点间通信技术的改进两方面。 ????节点性能不断进步 ????20世纪60年代初期,由于晶体管以及磁芯存储器的出现,处理单元变得越来越小,存储器也更加小巧和廉价。这些技术发展的结果导致了并行计算机的出现。这一时期的并行计算机多是规模不大的共享存储多处理器系统,即所谓大型主机。IBM 360是这一时期的典型代表。 ????到了20世纪60年代末期,同一个处理器开始设置多个功能相同的功能单元,流水线技术也出现了。与单纯提高时钟频率相比,这些并行特性在处理器内部的应用大大提高了并行计算机系统的性能。伊利诺依大学和Burroughs公司此时开始实施Illiac Ⅳ计划,研制一台64颗CPU的SIMD主机系统,它涉及到硬件技术、体系结构、I/O设备、操作系统、程序设计语言直至应用程序在内的众多研究课题。不过,当一台规模大大缩小的原型系统(仅使用了16颗CPU)终于在1975年面世时,整个计算机界已经发生了巨大变化。 ????首先是存储系统概念的革新,提出虚拟存储和缓存的思想。以IBM 360/85和IBM 360/91为例,两者是属于同一系列的两个机型,IBM 360/91的主频高于IBM 360/85,所选用的内存速度也较快,并且采用了动态调度的指令流水线。但是,IBM 360/85的整体性能却高于IBM 360/91,惟一的原因就是前者采用了缓存技术,而后者则没有。 ????其次是半导体存储器开始代替磁芯存储器。最初,半导体存储器只是在某些机器中被用作缓存,而CDC7600则率先全面采用这种体积更小、速度更快、可以直接寻址的半导体存储器,磁芯存储器从此退出了历史舞台。与此同时,集成电路也出现了,并迅速应用到计算机中。元器件技术的这两大革命性突破,使得Illiac Ⅳ的设计者们在底层硬件以及并行体系结构方面提出的种种改进都大为逊色。 ????处理器高速发展 ????1976年Cray-1问世以后,向量计算机从此牢牢地控制着整个高性能计算机市场15年。Cray-1对所使用的逻辑电路进行了精心的设计,采用了我们如今称为RISC的精简指令集,还引入了向量寄存器,以完成向量运算。这一系列技术手段的使用,使Cray-1的主频达到了80MHz。 ????微处理器随着机器的字长从4位、8位、16位一直增加到32位,其性能也随之显著提高。正是因为看到了微处理器的这种潜力,卡内基·梅隆大学开始在当时流行的DEC PDP-11小型计算机的基础上研制一台由16台PDP-11/40处理机通过交叉开关与16个共享存储器模块相连接而成的共享存储多处理器系统C.mmp。 ????从20世纪80年代开始,微处理器技术一直在高速前进。稍后又出现了非常适合于SMP方式的总线协议。而伯克利加州大学则对总线协议进行了扩展,提出了Cache一致性问题的处理方案。从此,C.mmp开创出的共享存储多处理器之路越走越宽。现在,这种体系结构已经基本上统治了服务器和桌面工作站市场。 ????通信机制稳步前进 ????同一时期,基于消息传递机制的并行计算机也开始不断涌现。20世纪80年代中期,加州理工学院成功地将64个i8086/i8087处理器通过超立方体互连结构连结起来。此后,便先后出现了Intel iPSC系列、INMOS Transputer系列,Intel Paragon以及IBM SP的前身Vulcan等基于消息传递机制的并行计算机。 ????20世纪80年代末到90年代初,共享存储器方式的大规模并行计算机又获得了新的发展。IBM将大量早期RISC微处理器通过蝶形互连网络连结起来。人们开始考虑如何才能在实现共享存储器缓存一致的同时,使系统具有一定的可扩展性。20世纪90年代初期,斯坦福大学提出了DASH计划,它通过维护一个保存有每一缓存块位置信息的目录结构来实现分布式共享存储器的缓存一致性。后来,IEEE在此基础上提出了缓存一致性协议的标准。 ????20世
纪90年代至今,主要的几种体系结构开始走向融合。 ????属于数据并行类型的CM-5除大量采用商品化的微处理器以外,也允许用户层的程序传递一些简单的消息。 ????Cray T3D是一台NUMA结构的共享存储型并行计算机,但是它也提供了全局同步机制、消息队列机制,并采取了一些减少消息传递延迟的技术。 ????随着微处理器商品化、网络设备的发展以及MPI/PVM等并行编程标准的发布,集群架构的并行计算机出现开始。IBM SP2系列集群系统就是其中的典型代表。在这些系统中,各个节点采用的都是标准的商品化计算机,它们之间通过高速网络连接起来。??1.2 有限元并行计算的发展和现状?? 目前,在计算力学领域内,围绕着基于变分原理的有限元法??和基于边界积分方程的边界元法,以及基于现在问世的各种并行??计算机,逐渐形成了一个新的学科分支——有限元并行计算。它??是高效能的,使得许多现在应用串行计算机和串行算法不能解决??或求解不好的大型的、复杂的力学问题能得到满意的解答,故其??发展速度十分惊人。在国际上已经掀起了利用并行机进行工程分??析和研究的高潮。从1975到1995年的二十年间,有关有限元方法??和相应的数值并行计算的文章已发表1000余篇。?? 有限元并行计算正在向两个方向发展。一是对系统方程组实??施并行求解的各种算法。二是并行分析方法,包括有限元并行算??法和边界元并行算法,前者趋向成熟,而后者的研究较少。对这??一方面的研究,是为了挖掘有限元计算自身潜在的并行性,是有??限元并行计算的根本问题。??1.2.1国内?? 并行算法的设计和有效实现强烈地依赖于并行机的硬软件环??境。国内仅极少数单位拥有并行机,且机型杂乱,因此研究人员??少,起步晚,而且局限于特定的硬件环境。从有限元分析方法的??内容来看,发表的几十篇研究论文(报告)还未显示出较强的系??统性。??1)南京航空航天大学周树荃教授等在YH-1向量机上实现了刚度??矩阵计算、对称带状矩阵的Cholesky分解和线性方程组的求解等??并行处理。针对不规则结构工程分析问题,他们还采用了变带宽??存贮方法,并实现了刚度矩阵的并行计算以及求解变带宽稀疏线??性方程组的并行直接解法【20】。??2)中国科学院计算中心王荩贤研究员等在基于Transputer芯片??的分布式MIMD系统上,提出了有限元分析中变带宽线性方程组的??并行直接解法,初步完成了一个静力分析程序【21】。??3)重庆大学张汝清教授等借助于ELXSI-6400共享存贮器型MIMD??系统,先后开展了范围比较广泛的并行算法研究,主要成果有:??a)提出了静力分析中子结构解法的并行算法,以及动力分析中模?? 态综合子结构法的并行算法;??b)从波前法出发,发展了多波前并行算法以求解大型结构分析?? 问题;??c)从Jacobi块迭代法和加权残差法出发,导出了基于异步控制的?? 有限元方程并行解法和有限元并行迭代的基本格式;??d)利用图论中的着色理论,实现了刚度矩阵的并行计算;??e)实现了基于有色线剖分的SOR并行迭代解法;??f)实现了子空间迭代法、Lanczos法以及利用多项式割线迭代法?? 和矢量迭代法求解结构固有频率和模态的并行算法;??g)针对弹塑性分析,提出了一种多波前子结构并行算法;??h)针对弹性接触问题,提出了一种基于参数变分原理的并行解法;??i)实现了一步积分法的并行处理【22】。??4)南京航空航天大学乔新教授等借助于Transputer芯片的分布式??MIMD系统实现了有限元方程组的并行直接解法,并提出了基于子结??构的预处理共轭梯度法的并行计算方法【23】。?? 此外,浙江大学姚坚【24】、中国科学院西南计算中心马寅国、??东北工学院张铁以及国防科技大学六系也曾对有限元分析的并行计??算开展了一些研究。?? 上述研究结果表明,国内并行计算方法的研究,在硬件上基于??向量机、分布式并行机和共享存贮式并行机;在内容上,似乎面很??广,但系统性和深度还很不够,软件开发距实际应用和商品化还有??很大距离,对不依赖并行机具体环境的通用并行算法研究还很少,??同样对旨在进行结构有限元分析的并行计算的硬件研究也很少。??1.2.2国外?? 自从美国国家宇航局(NASA)的A.K.Noor于1975年发表第一篇??有限元并行计算的文章以来,有限元并行处理技术几乎与并行计算??机同步发展。距不完全统计,到1992年,国外已发表了400余篇这方??面的论文,其中后5年的文章篇数是前12年的总和。在研究内容
上也??由过去的算法研究发展到了算法、软件和硬件相结合的研究,并针对??一些机型开发了一些实用的大型结构分析软件。??1)有限元机器FEM【25】(Finite Element Machine)。早在70年??代末,就有人发表了有关FEM的论文,1982年美国国家宇航局Langley??研究中心的O.O.Storaasli等撰文详细地介绍了该中心设计的供研究??用的FEM。该机器由1个处理器阵列、1台作为控制器的微机和1个并行??操作系统及一些模块化了的通用并行算法程序组成,用户使用系统的??文本编辑器和控制器的其它特殊功能,能建立有限元计算模型并进行??分析。10多年来,又有一些人在这一方面进行了不懈的努力,但FEM??的发展前景仍然不太令人乐观。??2)心动阵列并行机【26】。心动阵列并行机主要应用于信号和图象??的并行处理,但由于其高效的矩阵计算功能,近年来有人把它应用于??有限元分析,并作了一些有益的尝试。??3)巨型向量机【27】。在有限元分析中越来越显示出巨大的威力,??处于领先的是美国思维公司的CM-2。许多结构分析家把这个具有65536??个处理器的巨型向量机应用于有限元计算,如T.Belyschko等人采用显??式方法,完成了具有32768个单元的壳的非线性有限元计算,并行效率??极高,速度几乎比CRAY X-MP/14并行机高出1个数量级。??4)并行机网络和工作站网络【28】。日本东京大学矢川等借助高速网??络把3台CRAY Y-MP机联成网络进行有限元分析,有限元方程求解采用??的是基于区域分裂技术的共轭梯度法(CGM), 在求解三维弹性问题??时自由度个数超过了100万,系统平均运行速度高达1.74GFLOPS。另外,??他们还基于一个工程工作站网络,在并行环境下进行了类似的研究,??求解问题的自由度数高达20万个。
并 行 和 分 布 计 算 技 术 现 状 及 发 展 策 略 上 海 交 通 大 学 计 算 机 系 陆 鑫 达
并 行 和 分 布 计 算 技 术 自60 年 代 中 期 和70 年 代 后 期 分 别 出 现 以 来, 其 并 行 处 理 方 式 经 历 了 从 阵 列 机(SIMD)、 向 量 机 及 向 量 并 行 机、 共 享 存 储 的 对 称 多 处 理 器 系 统(SMP)、 分 布 存 储 的 大 规 模 并 行 处 理 系 统(MPP) 到NUMA( 非 一 致 访 问 的 分 布 共 享 存 储) 并 行 机 系 统 和 计 算 机 机 群 系 统(Clusters) 的 演 变 过 程。
在 研 制 上 述 并 行 和 分 布 计 算 系 统 的 过 程 中, 人 们 逐 渐 认 识 到, 系 统 的 规 模 可 伸 缩 性(Scalabi lity) 和 可 编 程 性(Programmability) 已 成 为 促 使 这 两 者 进 一 步 发 展 的 关 键 问 题。 规 模 可 伸 缩 并 行 计 算 机 系 统 能 以 最 低 可 能 成 本 向 用 户 提 供 最 高 可 能 性 能, 因 此, 已 成 为 并 行 计 算 技 术 发 展 的 主 流; 如 果 计 算 机 或 工 作 站 已 局 部 联 网,
计 算 机 机 群( 工 作 站 机 群NOW/COW 等) 则 能 提 供 更 为 经 济 有 效 的 高 性 能 计 算 能 力, 而 事 实 上 已 成 为 分 布 计 算 技 术 发 展 的 主 流。
一、 对 当 前 发 展 形 势 的 基 本 估 计
当 前, 并 行 和 分 布 计 算 发 展 的 基 本 状 况 是:
? 并 行 软 件 的 发 展 远 远 落 后 于 并 行 和 分 布 计 算 体 系 结 构 的 发 展。
? 并 行 和 分 布 计 算 应 用 远 远 落 后 于 并 行 和 分 布 计 算 技 术 的 发 展。
? 向 尽 量 采 用 商 品 化 的 软、 硬 件 甚 至 系 统 来 构 成 并 行 和 分 布 计 算 系 统 平 台 的 方 向 发 展。
? 计 算 系 统 的 规 模 可 伸 缩 性 和 可 编 程 性 已 成 为 并 行 和 分 布 计 算 系 统 进 一 步 发 展 的 一 对 主 要 矛 盾。
? 由 高 速 网 联 成 的 各 种 类 型 的、 规 模 可 伸 缩 计 算 机 群, 由 于 其 经 济 有 效 性 而 发 展 很 快, 加 上 可 移 植 异 构 编 程 环 境PVM(Parallel Virtual MacRine) 日 益 流 行 和 标 准 的 消 息 传 送 平 台MPI(Message Passing Interface) 并 行 编 程 环 境 的 日 益 普 及, 已 经 并 将 进 一 步 促 使 并 行 和 分 布 计 算 应 用 有 较 大 的 发 展。
? 由 基 于NUMA(Non-Uniform Memory Access) 方 式 构 成 的 分 布 共 享 存 储 器(Distributed Shared Memory,DSM) 组 成 的 并 行 机 系 统, 特 别 是 采 用 目 录 方 法 来 保 持 各cache 之 间 数 据 一 致 性 的CC-NUMA(Cache Coherent NUMA), 由 于 具 有 良 好 的 可 伸 缩 性 和 可 编 程 性, 已 受 到 诸 多 计 算 机 厂 商 的 青 睐, 不 少 厂 商 已 经 和 准 备 推 出 有 关CC-NUMA 并 行 机 系 统。
? 大 规 模 并 行 处 理 系 统 已 不 再 是 主 要 研 究 领 域。 由 于 负 载 难 于 平 衡 和 相 应 的 并 行 算 法 设 计 困 难, 据 国 外 预 测, 在 高 能 计 算 机 市 场 中,MPP 所 占 的 份 额 将 从 目 前 的7% 降 为2000 年 的3%。
二、 国 外 重 点 研 究 领 域
1 并 行 算 法 的 设 计、 分 析 和 实 现
其 中 包 括 数 值 和 非 数 值 并 行 算 法、 同 步 和 异 步 算 法 以 及 分 布 式 算 法; 上 述 算 法 的 时 间 和 空 间 复 杂 性 分 析; 算 法 的 实 现 方 法 等。
2 并 行 优 化 编 译
其 中 包 括 粗、 中、 细 精 度 三 个 层 次 上 的 并 行 优 化 编 译。 并 行 化 编 译 方 法 包 括 对 程 序 中 存 在 的 并 行 性 进 行 检 测, 即 分 析 和 判 定 各 种 相 关 性、 相 关 性 的 消 除 方 法、 各 种 并 行 化 程 序 变 换 技 术, 以 及 数 组 私 有 化 识 别 和 过 程 间 分 析 等。 优 化 编 译 方 法 包 括 减 少 程 序 执 行 的 指 令 数 的 优 化; 提 高Cache 中 对 同 一 数 据 的 时 间 重 用 和 对 同 一 数 据 行 的 空 间 重 用, 即 提 高 对Cache 访 问 的 命 中 率 优 化, 寄 存 器 使 用 优 化 以 及 指 令 级 程 序 并 行 执 行 优 化, 如 基 本 块 内 指 令 级 并 行、 跨 基 本 块 的 指 令 级 并 行 以 及 循 环 内 的 指 令 级 并 行 优 化 等。
3 各 种 类 型 的 规 模 可 伸 缩 计 算 机 机 群 间 通 信 方 法 的 研
共分享92篇相关文档