石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt

上传人:小飞机 文档编号:3953987 上传时间:2023-03-28 格式:PPT 页数:17 大小:6.29MB
返回 下载 相关 举报
石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt_第1页
第1页 / 共17页
石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt_第2页
第2页 / 共17页
石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt_第3页
第3页 / 共17页
石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt_第4页
第4页 / 共17页
石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt》由会员分享,可在线阅读,更多相关《石油地震勘探及其大数据快速存储技术研究介绍-IndicoIHEP课件.ppt(17页珍藏版)》请在三一办公上搜索。

1、报告人:韩昭核探测器与核电子学国家重点实验室(科大部)2013年5月3日,1,石油地震勘探及其大数据快速存储技术研究介绍,2,石油地震勘探简介,石油地震勘探是指利用仪器检测、记录人工激发地震的反射波、折射波的传播时间、振幅、波形等,对地层界面、岩土性质、地质构造进行成像分析。人造地震是现在最重要的一种油气勘探方法。,3,石油地震勘探简介,地震石油勘探的特点与发展趋势:1、在地震数据处理中,利用检波器采集的数据对地质结构成像分析。地震数据有很大的噪声,检波器排布越密集,可以得到越准确的地质结构。2、为了勘探更深处的油气,探测设备覆盖的范围越来越广。3、因为上述原因,现在地震勘探使用的地震仪器,达

2、到了万道量级,有些勘探公司已经做到了十万道,并且提出了百万道的目标。,4,石油地震勘探中要解决的问题,对如此大规模的地震勘探设备,在前端的数据采集传输,后端的数据存取都要面临很多问题1、数据采集传输中的问题(1)大量节点的管理(2)数据可靠传输(3)供电(4)低功耗(5)节点同步,5,石油地震勘探中要解决的问题,2、数据存取处理中的问题(1)近年来处理器的能力随着半导体工艺的发展进步很快,比如,主流PC的CPU主频已经达到3GHz以上,服务器CPU大都达到十核以上。然而提供数据存储的仍然是传统的磁介质硬盘,它的性能却提高很有限。很多文献资料表明IO速度已经成为制约数据处理过程的一个瓶颈。(2)

3、地震数据采集中,原始数据是记录在磁带中的,进行数据处理时,会将磁带中的数据按一定的格式存储在硬盘中。现阶段由于检波器数目的增大地球物理勘探所产生的数据量越来越大,大都达到了TB甚至PB的量级,这对于后端的大数据处理产生了巨大的压力。在一些地震数据处理的过程中数据分发所用的时间已经和数据处理所花费的时间基本相当。(3)地震数据处理的过程中,需要对各种不同的数据组合进行读取分析,大部分情况下,这些数据都离散的分散在文件中,并不是连续的,这些离散的数据会导致数据获取的速度大大降低。(4)本人主要工作是解决这一部分的问题。,6,离散数据存取速度慢的原因,事实上,硬盘读出数据的速度并不慢,但受到机械运动

4、因素的影响,寻道时间非常慢。,对于8KB数据,数据读取时间约为0.05ms,平均寻道时间约为 9ms,平均寻道时间数据读取时间,对于机械式硬盘,最影响速度的是随机访问。然而地震的数据需要不同的组合,绝大部分是随机的小数据访问模式。,解决办法,多硬盘有效并行工作,7,磁盘阵列,磁盘阵列(Redundant Arrays of Inexpensive Disks RAID),利用数组方式来作磁盘组,在一定程度上实现了数据的分布存储,可以达到并行,增加IO的作用。,8,传统的地震数据存取方式,以POSIX为代表的基于文件系统的存储是现在大多数实验中大数据的存储模式。地震数据按照一定格式存储在文件中,

5、典型的访问函数为open文件,seek到特定的位置,read一定长度的内容。POSIX标准是以一种流(stream)的串行的方式来访问数据存储区的。,9,磁盘阵列存在的问题,磁盘阵列并没有抛弃传统的串行的文件系统存储方式,每个硬盘并不知道自己的数据,这些需要上层的串行命令,并靠RAID控制器分发实现。而这一过程是串行的,在硬盘数量不断增加的情况下,会成为阻碍性能的瓶颈。其次,RAID是一种通用的存储设备,并不理解数据的含义,只是固定长度的切割,这也会造成性能的下降。因为磁盘阵列并没有实现硬盘与硬盘之间的完全独立,因此很难实现太大规模的并行。,10,Google提出的key-value存储模式,

6、完全抛弃了POSIX的访问模式,把每一个数据(value)打上一个key标签,然后作分布式的存储。需要访问数据的时候以key为关键字进行检索,可以同时有很多的客户端同时响应,从而实现并发访问。,11,Key-value面临的最大问题,因为与传统的以文件系统为基础的数据存储方式差异太大,提出的主要应用对象是针对数据库的应用。很多已经成熟的软件应用无法直接使用key-value模式,即使重新移植风险也太大。这是因为key-value模式与传统的数据存储方式,底层操作差别太大,需要对原本成熟的应用程序进行大量修改。,12,我们提出的iSmartDisk方案,基于key-value的思想,提出了iSm

7、artDisk的分布式存储模式,把实验数据分布的存储在用internet连接起来的具有CPU控制的硬盘上,访问时,利用Key-value的方式,向各个节点分发需要的数据的标签。所有节点并行的查找,提供自己的数据。在提供快速IO并发访问的同时,对现有的大型应用程序保持兼容。,13,iSmartDisk初步测试结果,系统测试结果,IO性能同节点数呈线性增长关系。在同传统的建立在RAID的基础上的文件系统的IO速度相比,在同样的硬盘数目下,IO速度提高了8倍!,现有RAID速度,测试平台:地空学院曙光服务器存储设备:服务器26个计算节点上的硬盘测试方法:将数据文件按照相应的算法分布存储在计算节点的硬

8、盘上,然后根据需要读取数据,14,iSmartDisk的特点,iSmartDisk提出了把key-value分布式数据库的存储思想用于大型实验数据的新存储概念。实现了每个硬盘的完全独立,所有的节点都是并行处理,正因如此,可以支持大量的并行。在key-value的基础上还提出了通过算法实现无元数据(meta-data)的存储模式,进一步加快随机IO速度。利用虚拟文件的技术,在利用iSmartDisk的快速IO能力的同时保持了应用程序级的兼容。,15,目前所使用的控制节点硬件平台,16,目前的研究状态,基本完成了架构设计。在地空学院提供的专业地球物理软件GeoTomo的平台下进行了对比测试,得到了8-10倍速度的提升。正在进行样机系统平台的硬件与软件方案设计。发明专利申请中。,17,谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号