《《智能数据分析》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《智能数据分析》PPT课件.ppt(32页珍藏版)》请在三一办公上搜索。
1、智能数据分析(Intelligent Data Analysis,IDA),Josipa Kern,PhDAndrija Stampar公共卫生学院萨格勒布大学医学院萨格勒布,克罗地亚,对智能数据分析的兴趣和激情,决策的过程就是寻求信息和知识的过程数据处理可以提供这些问题的多维度在于寻找合适的解决方案和进行深入的数据处理和分析,学习目标,理解IDA的概念浏览相关的网页和文献接触一些IDA的工具学习如何使用IDA工具和验证IDA的结果,识别需要使用IDA来解决的问题准备数据并进行分析验证并解释IDA的结果,绩效目标,与有效的数据分析相关的多学科研究用来从大量的联机数据中提取有用信息;从固有数据库
2、中提取需要的知识和感兴趣的模型。,IDA就是,数据开发(data mining)从数据中获得的知识基于算法(algorithm-based)的遗传规律的发现知识的发现学习分类系统机器学习(machine learning)其他,IDA还是,IDA提供知识,经过收集,分类,组织,整合,概括和增值的信息的精华位于比资料和信息更高的抽象概念的水平,并能用来推出新的信息和知识往往表现为用来解决特定问题的专门技能,知识就是,是一个抽提、分析、转换、分类、组织和整合知识并以一种能用于计算机系统的形式来阐明的过程,知识的获得,一个领域的知识能用一系列的规律来表达,用来规定建议、指令或策略的正规方式。常用“如
3、果前提,那么结论”或“如果条件那么行为”的形式表达,规律就是,怎样发现隐藏在数据中的规律?,See5以决策树和/或规律设置的形式来分析数据和生成分类器的程序,一些IDA的工具,http:/,Cubist分析数据和生成基于规律的分段线形模型规律的集合,每个规律都有相关的线形表达来计算目标值,一些IDA的工具,http:/,ILLM此工具以规律的形式建立了分类模型,这种规律阐述了有关隐藏在数据中的关系的知识,一些IDA的工具,http:/,Magnum Opus找寻相关性规律,因可以揭示数据中因素之间潜在的相互作用而具有竞争性优势,一些IDA的工具,http:/,绝对&相对精确性灵敏性&特异性假阳
4、性&假阴性误差率规律的可靠性及其他,IDA结果评价,使用See5进行IDA演示,IDA举例,应用.姓名列出案例可能所属的组别以及用来描述每个案例的属性属性有两类:离散属性从一系列可能性中提取出一个数值,而连续性属性有数字值,See5应用,应用.数据提供训练案例的信息,See5从中提取出模型每个案例的入口由一条或多条决定所有属性值的线组成,See5应用,应用.测试提供测试案例的信息(用于结果评价)每个案例的入口由一条或多条决定所有属性值的线组成,See5应用,流行病学研究(1970-1990)在这段时间内死于心血管病的受试者样本问题:他们知道自己生病了吗?1他们是健康的 2他们有疾病(药物治疗,
5、临床和实验室检 查阳性结果),See5应用实例,应用.姓名实例,See5应用实例,目标性别:男,女活性:1,2,3年龄:连续的吸烟:否,是目标:1,2,应用.数据实例,See5应用实例,男,1,59,是,0,0,0,0,119,73,103,86,247,87,15979,?,?,?,1,73,2.5男,1,66,是,0,0,0,0,132,81,183,239,?,783,14403,27221,19153,23187,1,73,2.6男,1,61,否,0,0,0,0,130,79,148,86,209,115,21719,12324,10593,11458,1,74,2.5,See5应用实
6、例,结果实例,规律 1:(包括26名)性别=男 收缩压111 油脂2.9-1组 0.929,See5应用实例,结果实例,规律 4:(包括14名)吸烟=是 收缩压131 葡萄糖93 葡萄糖=118 油脂=2.9-2组 0.938,See5应用实例,结果实例,规律 15:(包括2名)收缩压=111 油脂2.9-2组别 0.750,See5应用实例,结果实例,训练数据评价(199例)(a)(b)-分组为-107 3(a):组 1 17 72(b):组 2,结果实例(训练集),See5应用实例,灵敏性=0.97,特异性=0.81,See5应用实例,结果实例,测试数据评价(73例)(a)(b)-分组为-43 1(a):组 1 3 26(b):组 2,结果实例(测试集),See5应用实例,灵敏性=0.98,特异性=0.90,所有推荐的IDA工具在提到的URL上都是可用的,至少也有测试版本,试试你自己的IDA,谢谢!,