医疗大数据及相关技术.ppt

上传人:牧羊曲112 文档编号:5246611 上传时间:2023-06-18 格式:PPT 页数:42 大小:5.61MB
返回 下载 相关 举报
医疗大数据及相关技术.ppt_第1页
第1页 / 共42页
医疗大数据及相关技术.ppt_第2页
第2页 / 共42页
医疗大数据及相关技术.ppt_第3页
第3页 / 共42页
医疗大数据及相关技术.ppt_第4页
第4页 / 共42页
医疗大数据及相关技术.ppt_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《医疗大数据及相关技术.ppt》由会员分享,可在线阅读,更多相关《医疗大数据及相关技术.ppt(42页珍藏版)》请在三一办公上搜索。

1、医疗大数据及相关技术介绍,翟运开 博士/副教授河南省数字医疗工程技术研究中心 副主任数字化远程医疗服务河南省工程实验室 副主任郑州大学第一附属医院 河南省远程医学中心 主任中国卫生信息学会远程医疗信息化专业委员会 常委/秘书长,目录,大数据简介大数据相关技术大数据挖掘大数据平台,摩尔定律,正在走向终结,摩尔定律:集成电路芯片上所集成的电路的数目,每隔18个月就翻一番,同时性能也提升一倍,单芯片容纳晶体管的增加,对制造工艺提出要求CPU制造18nm技术,电子泄漏问题CPU主频已达3GHz时代,难以继续提高散热问题(发热太大,且难以驱散)功耗太高,并发计算发展成熟,大数据时代正在来临,1000+P

2、B24亿网民1天产生的数据,63%GAGR非结构化数据增长率,数据摩尔定律:Y=C2XX代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量,30+TB交易量3000+万笔/天,1PB/SCERN:核爆产生数据的速度,数据量的表达单位,当前典型大数据的处理量,传统数据 vs.大数据,传统数据处理技术面临的挑战,传统的IOE模式已经不能满足PB级海量数据的存储、分析和应用需求,小型机+DWH+SAN成本高企、扩容昂贵,无法满足海量数据的离线分析和实时分析,无法满足对非结构化数据的快速处理要求,Scale-Up已到极限,必须支持Scale-Out,大数据处于成长阶段,即将广泛商用,大数据是

3、对数据更大的掌控和应用能力,大数据是淘炼黄金而不是制造更多的石头,“大数据”是数据存储、管理、处理和分析的技术和解决方案“大数据”带来数据分析能力的质变性增强,不仅是传统BI领域,也为新商业机会和新商业模式提供了更大的创新空间;“大数据”是“以数据为中心”,这不仅是技术需要,也是管理需要;存储、计算、分析合一的系统成为必然的需求、趋势“大数据”的本质不在于更多(更快)的数据,而在于对数据中蕴含信息价值的巨大掌控和应用能力;使企业更好认识数据中所蕴含的巨大信息价值,影响和改变企业决策依据与过程和生产业务的开展过程“Big Data is nothing without Big Analysis”

4、,大数据要解决的问题,Volume海量的数据规模,Variety多样的数据类型,Value,Velocity快速的数据流转,巨大的数据价值,目录,大数据简介大数据相关技术大数据挖掘大数据平台,大数据与云计算、物联网、互联网之间的关系,云计算,来源:互联网进化论,产生海量数据,大数据是对海量数据的高效处理。云计算是硬件资源的虚拟化,是大数据分析的支撑平台。,处理分析,需求,技术,描述,Data Warehouse,数据仓库,ETL,Data Quality,信息整合、元数据,Text Analytics EngineVisual Data Modeling,文本内容分词与分析,Hadoop Ma

5、p Reduce,分布式文件系统,流计算引擎,Streaming Data,海量非结构化、结构化数据存储,结构化数据处理,实时数据处理,非结构数据分析,各类信息整合,数据处理技术的变化:满足数据的多样化,大数据技术,成本可承受(economically)的情况下 通过非常快速(velocity)的采集、发现和分析;在大量化(volumes)、多类别(variety)的数据中提取价值(value),分析的数据越全面,分析的结果就越接近于真实 能够从这些数据中获取新的洞察力,并将其与已知业务的各个环节相融合,大数据带来哪些技术变革-技术驱动,大数据的基本技术,分布式文件系统HDFS(hadoop

6、Distributed File System)并行数据处理MapReduce非结构化数据表HBase流式数据处理Streaming,MapReduce 分布式数据处理架构,DATA,计算(IOE架构),输入,结果,输出,传统方式,X86 服务器,X86 服务器,HDFS 分布式文件系统架构,Hadoop 集群,HBase NoSQL数据库,HBase的数据模型分布式的多维映射,以(row,column,timestamp)索引,Rows,Columns,timestamps,“contents:”,Streaming:流式数据处理-Storm,大数据 的 预处理技术,滥用缩写词数据输入错误数

7、据中的内嵌控制信息不同的惯用语重复记录丢失值拼写变化不同的计量单位过时的编码含有各种噪声,数据污染,格式标准化异常数据清除错误纠正重复数据的清除,数据处理,大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作目的是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库的工具(ETL)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项。因此要对数据通过过滤“去噪”从而提取出有效数据,大数据 的 存

8、储技术,结构化数据:传统的关系数据模式海量数据的查询、统计、更新等操作效率低非结构化数据图片、视频、word、pdf、ppt等文件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,存储与分析融合,提升处理效率,拷贝,共享存储,分析存储,拷贝,导入存储,数据生产,数据共享,数据分析,数据生产,数据共享,数据分析,一份数据3次存储,浪费空间67%一份数据2次拷贝,浪费时间2倍,一份数据1次存储,节省空间67%一份数据0次拷贝,提升效率2倍,大数据 的 其他技术,数据仓库 数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是一种格式一致的多源数据存储中心。数据源可

9、以来自多个不同的系统,如企业内部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。数据仓库的出现以后,一系列的产业链也逐步形成联机分析 联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析;“维”是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度;可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创建“万维”动态报表数据挖掘 通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间的关系,模式和趋势,为决策者提供新的知识。如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现数据之下的历史规律,对未来进行预测。,大数据的分析挖掘技术,

10、技术方法分类根据挖掘任务:分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等根据挖掘对象:可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web根据挖掘方法:可分为:机器学习方法、统计方法、神经网络方法和数据库方法。重点技术可视化分析。数据可视化可以让数据自己说话,让用户直观的感受到结果。数据挖掘算法。分割、集群、孤立点分析还有各种算法让我们精炼数据,挖掘价值。这些算法要能够应付大数据的量,同时还具有很高的处理速度。预测性分析。预测性分析可以让分析师根据图像化分析和数

11、据挖掘的结果做出一些前瞻性判断。语义引擎。人工智能从数据中主动地提取信息。包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。数据质量和数据管理。透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。,目录,大数据简介大数据相关技术大数据挖掘大数据平台,数据挖掘(DM)与 知识发现(KDD),顾名思义,数据挖掘就是从大量的数据中挖掘出有用的信息数据挖掘技术投入商用的三种基础技术已发展成熟(1)海量数据搜集(2)强大的分布式并行处理技术(3)数据挖掘算法知识发现(KDD):从源数据中发掘模式或联系的方法KDD被用来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分

12、析,而用数据挖掘(DM,Data Mining)来描述使用挖掘算法进行数据挖掘的子过程。数据挖掘所发现的知识有以下四类:广义知识:指类别特征的概括性描述知识关联知识:反应一个事件和其他时间之间依赖或关联的知识分类知识:反应同类事物共同性质的特征性知识和不同事物之间的差异性特征知识预测性知识:根据时间序列型数据,由历史的和当前的数据去推测未来的数据。,数据挖掘流程及方法模型,确定业务对象,数据准备,数据挖掘,结果分析,知识的同化,数据挖掘的技术,技术分类预言(Predication):用历史预测未来描述(Description):了解数据中潜在的规律数据挖掘技术关联分析序列模式分类(预言)聚集异

13、常检测,关联,关联规则挖掘:在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性、或因果结构。应用:购物篮分析、交叉销售、产品目录设计、loss-leader analysis、聚集、分类等。,买尿布的客户,二者都买的客户,买啤酒的客户,序列,序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值应用领域:客户购买行为模式预测Web访问模式预测疾病诊断自然灾害预测

14、DNA序列分析工业控制,分类&预测,分类:预测分类标号(或离散值)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测,分类是发现 质变预测是发现 量变,聚类,簇(Cluster):一个数据对象的集合在同一个类中,对象之间具有相似性不同类的对象之间是相异的聚类分析把一个给定的数据对象集合分成不同的簇聚类是一种无监督分类法:没有预先指定的类别典型的应用作为一个独立的分析工具,用于了解数据的分布作为其它算法的一个数据预处理步骤,聚类(续),将物理或抽象对象的集合分组成为由类似的对象组成的多个类聚类在不同

15、的应用领域,用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中;聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性聚类与分类不同,聚类所要求划分的类是未知的,异常探测,异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。异常探测应用电信和信用卡欺骗贷款审批药物研究气象预报金融领域客户分类网络入侵检测故障检测与诊断等,异常的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。,目录,大数据简介大数据相关技术大数据挖掘大

16、数据平台,揭开Hadoop神秘的面纱,Hadoop是Apache基金会的一个项目总称,主要由HDFS和MapReduce组成。Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。,Hadoop已成为大数据事实标准,第一阶段(20052009年):模仿Google的“三驾马车”,主导者是Yahoo!,Facebook等互联网厂商,相关项目第二阶段(2009年):模仿Google的“新三驾马车”,主导者是Cloudera、Hortonworks等Hadoop发行版厂商,IBM、EMC、Intel、Hu

17、awei等传统IT厂商开始集成Hadoop,Haoop进入企业市场,相关项目第三阶段(2012年):博采众长,吸纳AMP Lab、流计算等成果,通过配套工具构筑大数据领域生态系统,形成事实标准;相关项目。,6大Hadoop 发行版厂商Cloudera、Hortonworks、MapR、IBM、EMC、Huawei,数据处理技术与架构发展趋势,挖掘平台,数据探索,并行化机器学习算法库(Mahout/MLlib/HiGraph),建模分析,统计报表,行业应用使能器(Enabler),金融行业模型使能套件,电信行业模型使能套件,医疗行业模型使能套件,特征工程,特征工程:多人协作特征复用,可达1000万维度建模算法:算法并行化效率(T+0)深度学习技术社交化社交化分析社交化发布开放性支持PMML,可以与SAS、SPSS等对接支持SQL对Operator的扩展性支持与R对接,挖掘平台的业务架构,关注大数据技术研究发现数据价值谢谢,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号