周淳：DM针对大数据量环境下分析型应用的支持方案v2063.docx

资源描述

《周淳：DM针对大数据量环境下分析型应用的支持方案v2063.docx》由会员分享，可在线阅读，更多相关《周淳：DM针对大数据量环境下分析型应用的支持方案v2063.docx（63页珍藏版）》请在三一办公上搜索。

1、DTCC2011DM针对大数据量环境下分析型应用的支持方案大纲一个实际案例挑战和解决方案下一步工作规划DTCC2011DTCC2011一个实际案例案例简介DTCC2011 海量数据基于已有硬件投资单服务器节点操作库和分析库合并以查询分析为主，兼顾少量数据维护硬件与拓扑千兆交换机DTCC2011应用服务器数据汇总文本数据源文本 Excel数据数据清洗与入库数据库服务器P550Cpu x 4Mem 32GBP550Cpu x 4Mem 32GB源源16 X 1TB SASRAID 5文本数据源数据案例简介-数据DTCC2011 以常规数据为主，主要为数值、字符串、时间类型日增长数据量为约

2、56G，3亿条元组当前数据量3TB 最大单表为计费表，目前约150亿条记录数据保存20年后归档为历史数据在线数据规模将超过400TB典型业务流程DTCC2011 源数据清洗入库分析统计型查询第一步过滤的筛选条件不确定试错式的查询分析过程，成功后固化，一般包含20多个步骤大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等复杂SQL不多，但IO非常大日常数据维护手工修改记录内容批量删除定期维护案例需求DTCC2011 关键在查询性能第一个过滤步骤筛选字段由用户随机定义，因此无法使用索引一般会得到千万级别的结果集大量的多表连接查询数据装载性能

3、初始入库48亿条，近1T：限48小时，相当于3万条/s 后续每3天入库一次，9亿条，168G，限10小时内完成DTCC2011挑战-核心是性能原有产品难以支持分析型应用DTCC2011只支持行式存储查询优化器比较简陋虚拟机实现不尽合理物理存储设计有待优化日志系统过于复杂不能充分利用多机资源提升性能数据分片技术不完善于2009年开始新一代产品DM7的研制DTCC2011实验室原型技术积累阶段实现各类标准持续的技术积累5.6引入物理操作符,虚拟机6.0引入高级特性和oracle 兼容特性5DM72011稳定性及功能与开源系统有差距3DM5.64DM62009对DM4-DM6的技术总结融合列存储与行

4、存储基于向量数据的1DM1-DM32DM420042007执行内核原生的MVCCOLAP应用的支持1988-2003DM系统研制历程对于性能的理解DTCC2011应用系统的设计表达式计算优化器综合性能数据/控制权传递I/O效率并发/并行数据控制权传递-批量技术 DTCC2011 向量数据处理在数据泵一次传送一批数据减少控制转移的CPU损耗；有利于批量的表达式计算传统的数据传递PROJECTFILTER一次只传递一条记录每个操作符一次只处理一行记录111控制权需要反复传递SCANDTCC2011向量式的数据传递PROJECT减少控制权限的反复传递提升CPU的有效利用率FILTER便于表达式

5、批量计算SCAN12N12NDTCC2011批量技术-数据入库DTCC2011 将系统的初始数据入库原有BCP接口达到5000条/s，仍无法满足要求改进：在服务器端实现批量，减少执行流程中的控制跳转效率提升倍批量技术-全表更新DTCC2011普通批量普通批量绑定针对大表更新的特定的批量绑定消息计划生成生成特定计划，减少执行流程单趟扫描一个ID进行更新，执行20万次ID进行排序，单趟扫描20万个ID并进行更新性能提升100倍以上，控制在2秒以内批量技术-LIKE谓词 select count(*) from orders whereo_comment not like%special%r

6、equests%DTCC2011DBMS O 11g:3.3DBMS S 2005: 10DM7:0.4orders : 1,500,000记录cpu 2.2G,多次执行DTCC2011 一个表达式出现多次 Select sum(2 * c1), sum(3 * (2 * c1) from t 只计算一次，结果缓存 v1 = 2 * c1； Select sum(v1), sum(3 * v1) from t 类似思路：中间结果重用一个复杂查询在一条sql语句中使用多次的情况将复杂查询提取，并将结果缓存，多次使用表达式计算-表达式结果重用批量表达式计算for (i = 0; i 1001.

7、80Q181.279.2122.012.90Q191.929.065.624.17Q200.789.231000.79Q212.248.8833.015.49Q220.240.341001.16TPCHDM7DBMSO11PGSQL8.3DBMSS2005Q11.3149.0916.0112.87Q20.160.0460.190.14Q30.8621.619.302.78Q40.989.030.800.68Q51.49.054.611.58Q60.7892.720.96Q71.6111.7319.542.35Q82.30.282.972.01Q931.6118.015.45Q101.369.1

8、65.832.23Q110.1944.670.550.46TPC-H /SF=1对比测试(S)优化器-分析器流程DTCC2011SQL脚本语法分析语法树语义分析SFW结构关系代数变换关系树代价优化优化了的关系树物理计划生成执行计划智能优化器基于多趟分析的代价优化器语义分析、代价优化过程分离灵活的计划变换控制基于时间单位(ms)的代价计算解决统计信息的使用性问题增加频率直方图增加高度直方图的桶数DTCC2011查询优化：关系变换DTCC2011 SFW结构转换为关系树Select : ID , nameFrom : TSFW结构投影(PROJECT)连接(JOIN)半连接(SEMI

9、 JOIN)选择(SELECT)基本表(BASE TABLE)Where : ID = 10PROJECT(ID , name )SELECT(ID = 10)BASE _TABLE (T)关系树查询优化：关系变换的关键DTCC2011 消除子查询，“平坦”的关系树子查询一律转化为半连接（SEMI JOIN）例：select from T1 where t1.id in (select ID from T2)PROJECTSEMIJOINT1T2查询优化：待选关系树的生成DTCC2011 考虑三个因素 A.确定的连接次序 B.确定的卡特兰2叉树形状 C.是否下放过滤条件采用临时结果减少重复

10、计算代价模型基本覆盖所有情况对连接表的个数非常多的情况,特殊处理查询优化：统计信息DTCC2011 记录数据分布情况，用于精确行数估计，特别是数据分布不规则的情况，对基数及代价计算有重大影响频率直方图：不同值较少500450400350300250400200238432300200150100500124167w_id = 0w_id = 1w_id = 2w_id = 3w_id = 4w_id = 5w_id = 6 等高直方图：不同值较多4050400040023990403239803950390038503800395039603888DTCC2011 列存储: 数据按列存储

11、结合自适应压缩技术与批量计算技术紧密结合列存储优缺点大幅提升扫描性能适合批量装载与删除不适合频繁的插入、删除和更新融合列存储和行存储提供按列存储选项结合分区技术同时适应OLAP和OLTP应用需求I/O效率-融合列存储和行存储I/O效率行存储优化简化物理记录格式字段物理次序与逻辑次序分离多buffer类型常驻内存和常规方式淘汰用户可以指定批量读：预处理支持垂直分区和水平分区DTCC2011提高并发度支持并行插入的物理数据存储并行备份和恢复分区技术及相应的并行查询操作符号DTCC2011典型场景一：大结果集DTCC2011 场景描述某表T，31个字段，48亿条记录

12、随机基于某字段筛选：SELECT * FROM T WHEREFLD1=753 查询符合条件的结果集达到千万条记录分析SQL语句非常简单，没有更优的等效语句结果集筛选条件不确定，无法使用索引服务器内存为32G，在扫描的过程中必然出现页面淘汰由于基础数据量大，因此即使命中率不高（0.2%），也会生成960万条记录的结果集典型场景一：大结果集DTCC2011从3个方向入手，提升全表扫描的IO效率批量技术降低结果集处理的时间消耗调整数据页读取策略典型场景一：大结果集DTCC2011 返回结果集策略改进优化前根据通信块大小决定结果集分批次返回的数量第一批结果集返回后，自动完成后续结果集获

13、取和返回优化后由应用设定第一批结果集的大小和返回的时机当返回第一批结果集后，工作线程暂停SQL查询请求，直到下一批结果集请求到来或开始新事务效果快速返回部分结果集，提高用户体验避免自动返回所有结果集，降低服务器资源消耗典型场景一：大结果集DTCC2011 调整数据读取策略数据页（page）是数据读写的单位优化前的全表扫描：按页读取，每次IO只扫描一个页优化后：一次扫描多个页，减少IO数量测试：经过优化后，磁盘的吞吐量提升1倍典型场景二：大表连接DTCC2011 场景描述表T1，31个字段，5000W条记录，数据类型包括int、varchar、datetime、Dec；表T

14、2,15个字段，500W条记录，数据类型包括varchar、datetime、Dec； SELECT T1.NAME, T2.TITLE FROM PERSON.PERSONT1, RESOURCES.EMPLOYEE T2 WHERET1.PERSONID = T2.PERSONID AND T1.SEX = M; 连接查询字段由最终用户临时指定，表上未建索引结果集不大，但查询表数据量大，连接查询响应时间陡增典型场景二：大表连接DTCC2011 分析行存储特性：连接查询所连接的字段在数据页中的存储非连续，进行连接查询，需将所有数据页读到内存，IO消耗巨大；连接匹配时，要对读入缓存中的所

15、有页进行扫描。行存储：连接列分散在每个数据页中Cn+1页1Cn+1页NC1C2CnC1CmC1C2CnC1Cm典型场景二：大表连接DTCC2011 优化方向：列存储按字段存储连接列被集中存储Cn+1 Cn+1页1Cn+1页N读入缓存中的数据页明显减少，系统IO下降C1C1C1C2C2C3Cm典型场景二：大表连接优化方向：存储压缩适用于列存储模式的压缩算法初步压缩结果：DTCC2011采用本案例数据进行测试Float 54%（压缩后大小/压缩前大小）Double 33%Dec 52%字符56%典型场景二：大表连接优化效果从17小时降至10分钟以内DTCC2011典型场景三：全表查询建表

16、DTCC2011 场景描述表T,15个字段，500W条记录，数据类型包括int、varchar、datetime、Dec ；根据T进行查询建表：CREATE TABLE TT as SELECT * FROMT;典型场景三：全表查询建表DTCC2011 分析大表进行查询建表时，需经过以下五个步骤初始化目标表全表扫描生成结果集插入结果事务提交这个过程中可优化的操作有：查询与结果集的生成和大量数据的插入操作典型场景三：全表查询建表DTCC2011 直接B树操作避免结果集处理与数据插入操作直接复制根节点和叶子是在内存中进行操作，速度更快优化效果对案例中的T进行建表查询优化前耗时约35

17、S 优化后耗时约4S，性能提升9倍装载表数据到内存源表B树扫描复制B树典型场景四：重复表达式计算DTCC2011 场景描述针对500万条记录的表进行如下查询 SELECT IDnum,sub(6,8,IDnum) as 生日,(now()-sub(6,8,IDnum) as 年龄 from 问题分析表达式sub(6,8,IDnum) 可重用典型场景四：重复表达式计算DTCC2011 改进优化：一个表达式出现多次，只计算一次本例中性能提升70%。其他场景性能提升程度取决于计算表达式的复杂度与数据量典型场景五：并行查询插入DTCC2011 场景描述同结构的表T1T10，每张表500万条记

18、录，需要将10张表的所有数据合并到一个临时表Ttmp中 INSERT INTO Ttmp SELECT * FROM T1 INSERT INTO Ttmp SELECT * FROM T2。应用的并行化并没有带来较大的提升分析 Ttmp成为瓶颈：原有的逻辑Rowid成为资源瓶颈逻辑Rowid：不代表物理存储位置，更新、插入、重组等操作代价降低，但Rowid需要通过临界资源获取原有产品针对OLTP业务场景，OLTP事务以分散、短小事务为主，原有的RowID机制不会成为突出瓶颈典型场景五：并行查询插入DTCC2011 改进物理RowID：代表记录的物理存储位置多个工作线程进行插入操作

19、，无需进入临界资源获取rowid，每个工作线程自行生成RowID 实现真正意义上的并发插入应用优化DTCC2011 好的性能需要应用与数据库的配合实现应用架构设计应站在系统全局考虑性能问题应用与数据库应该取长补短数据存储基于分区表进行数据划分应用的并行化复杂事务分解为多个可并行的简单事务应用优化-手段DTCC2011保存第一步过滤结果集利用视图减少中间结果集的保存数据按月份分区TOP查询减少不必要的全结果集应用优化-大表的全表扫描 DTCC2011 典型场景 5000万无索引TOP查询：SELECT * FROM T6WHERE NAME LIKE 张三优化前：数据库服务器CPU

20、满载而应用服务器没有负载在最坏情况下，将需要扫描整个表分析：系统设计需要站在全局角度，充分考虑应用、中间件、数据库之间的负载分配充分利用已有的硬件应用优化-大表的全表扫描 DTCC2011 改进：数据进行分表和分区 DM已实现的分区表并行查询操作符，提供了分区表优化的支持应用依据分表更改查询模块，从单线程改为多线程在应用服务器将各分表的查询结果合并效果：按最坏情况测试，查询时间由原来的不可预期，提升到2分钟内应用优化-数据清洗与入库 DTCC2011 最初方式：基于JDBC驱动的数据迁移工具进行清洗和入库操作批量绑定迁移工具的资源消耗随着迁移时间的持续增加，导致迁移速度

21、在运行3天后急剧下降初始数据（1T）入库时间达到1个月，相当于400条/s应用优化-数据清洗与入库 DTCC2011 问题分析：超过100亿条记录，即使每5000条提交一次，也有2百万次的解析-计划-代价-执行流程大量的数据库redo与undo日志操作解决方案利用批量利用并行化充分发挥多CPU处理能力，增加IO的吞吐量 JDBC方式转变为JNI+ODBC 实现动态编译型的ETL脚本引擎DTCC2011图 DMETL 内嵌BCP应用优化-DM ETL的技术改进DTCC2011应用优化-数据划分和并行化应用优化-BCPDTCC2011 将清洗与入库分离并行化清洗和装载入库入库应用B

22、CP方式通过批量绑定减少了网络开销服务器内部为BCP专门实现了”bcp_fast_insert”方法绕过SQL处理流程，直接操作B树叶子节点不进行Redo与Undo 不进行约束检查对原有BCP也进行了服务器端的批量化处理最终效果：性能提升100倍，能够在8小时内完成海量数据备份的难题DTCC2011 备份的效率问题整库备份操作耗时太长备份粒度问题需要灵活的针对整库、文件组、表、分区的多种粒度备份手段备份文件尺寸问题备份文件太大，消耗存储空间严重备份文件传输效率问题传输大尺寸备份文件，网络传输成为瓶颈本案例中的备份需求DTCC2011根据数据量、变化频度等确定不同的备份策

23、略对象更新特点备份策略XX1、XX2、XX3一次入库后不再更新一次全量备份YY1、YY22周1月，数据量12亿条随更新即时全备ZZ1周期不定，平均每次500G数据随更新即时增量备份应用优化-备份DTCC2011 选用dmloader作为表级备份方式导出为纯文本，可与压缩相结合基于B树叶节点顺序扫描，高速高效支持多个loader进程同时执行导出，提高IO并发度离线数据提取工具实现全库数据的快速备份绕过数据库服务器，直接读取数据文件实现异步/并行的读数据与写多个文件，进一步提高效率DTCC2011直面挑战下一步规划达梦分布式架构DM MPPDTCC2011 海量存储环境下的终极解决方案必然是分布式处理 DM MPP：SHARE NOTHING架构EP1-1 EP1-2 EP1-mDP1-2 DP1-2 DP1-m服务器1数据片1-2数据片2-2数据片n-2EP2-1 EP2-2 EP2-mDP2-2 DP2-2 DP2-m服务器2数据片1-1数据片2-1数据片n-1数据存储区EPn-1 EPn-2 EPn-mDPn-2 DPn-2 DPn-m服务器n数据片1-m数据片2-m数据片n-mDTCC2011The End谢谢达梦数据库（武汉）有限公司达梦数据库（上海）有限公司达梦数据库（北京）有限公司达梦数据库（广州）有限公司

展开阅读全文