《大数据时代的真实世界研究.ppt》由会员分享,可在线阅读,更多相关《大数据时代的真实世界研究.ppt(59页珍藏版)》请在三一办公上搜索。
1、大数据时代的真实世界研究,程良斌湖北省中医院 肝病科,二、大数据时代的思维改变,一、大数据时代,三、真实世界研究,目 录,二、大数据时代的思维改变,一、大数据时代,三、真实世界研究,目 录,前 言,作者:英 维克托迈尔-舍恩伯格(Viktor Mayer-Schnberger)著盛扬燕 周涛 译,2013年4月14日CCTV对话栏目 陈伟鸿 Vs 维克托,大数据时代来临,2008年9月,Nature出版了一个专刊,讨论大数据存储、管理和分析等问题,昭示着大数据时代的到来。之后麦肯锡公司、Science先后出版大数据报告和专刊大数据的讨论在中国也风起云涌,中国计算机学会于2012年10月在大连成
2、立了以中国工程院院士李国杰为首的“大数据专家委员会”,国家自然科学基金委于2013年3月在上海举办了第89期双清论坛“大数据技术与应用中的挑战性科学问题”,大数据时代来临,进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”,数据到底有多大?,一组名为“互联网上一天”的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之
3、多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。,大数据是什么?,什么是大数据,其概念定义至今莫衷一是2012年8月份国际数据挖掘会议SIG KDD的大数据论坛,从数据存储角度认为大数据应该是10台服务器也无法存储的数据,这样的数据必须进行在线分析,否则计算机存储无法支持;有专家从数据分析角度认为,数据结构很复杂,现有方法无法处理,必须采用类似谷歌的
4、Hadoop平台进行处理的就是大数据。到2013年,世界存储的数据预计达到1.2泽字节(ZB=270),其中98%为数字数据今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?,云计算,“大数据”与“数据”的区别,过去我们说的“数据”很大程度上是指“数字”,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录
5、音,我们位置信息,我们的点评信息,互动信息等等,包罗万象用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”、“半结构化数据”和“非结构化数据”,“结构化”、“半结构化”、“非结构化,关于“结构化”“半结构化”“非结构化”可能从字面上比较难理解由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额。目前,只有5%的数据是结构化而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准
6、确找到下一个热点,大数据潜质的信息资源,笔者体会“大数据”不仅是数据量大,数据结构复杂,而且应该是动态变化、蕴含着丰富使用价值的数据如今,在我们身边具有大数据潜质的信息资源随处可见,目前大多以纸张或模拟信息媒介的形式存放,但随着数字信息技术、网络技术以及物联网技术的出现和应用,他们大都可以被数据化后而激活,成为拥有巨大创新价值的宝库而中医药领域浩瀚的古代医籍、大量病历资料与现代科学研究文献,以及随着物联网的广泛应用,人们衣食住行过程以及健康信息监测所产生的数字信息,也都将成为可以有力促进中医药和人类健康事业发展的大数据,本质上,世界由信息构成,物联网,试图在一切生活的事物中都植入芯片、传感器和
7、通信模块,这个词很像互联网的姐妹,其实不过是一种典型的数据化手段罢了2009年,苹果公司申请了一项专利,通过音频耳塞收集关于血液氧合度、心率和体温的数据今天,我们生活在一个计算型社会,因为我们相信世界可以通过数字和数学而获得解释量化一切把各种各样的显示转化为数据,耳挂、头戴式16通道健康监护设备,物联网,“棱镜门”计划泄密者,美国前中央情报局特工爱德华斯诺登,量化一切是数据化的核心数据化:将现象转变为可制表分析的量化形式的过程数字化:把模拟数据转换成可用0和1表示的二进码,以便电脑处理,世界的本质就是数据,案例1:莫里绘制航海图,远在1855年,时任美国海军的马修方丹莫里利用前人遗留的具有大数
8、据潜质的航海日志,绘制出给航海业带来巨大变化的航海图。航海日志是船长个人的航海经历的记录,但这些经验信息并没有得到应用。而莫里在发现库房中存留的大量航海日志后,他与20位从事数据处理的人,一起把破损的航海日志记录的有用信息,通过数据提取,制成表格,整合数据之后,把整个大西洋按经纬度划分成了5块,并按月份标出了温度、风速和风向等。于是,这些来自破旧脏乱航海日志的信息,变成了有效的航海路线图。为了不断地提高航海线路的精度,莫里要求航海图的使用者都要将航行经历,使用事先特定的表格继续记录成航海日志,他们再根据航海日志产生的数据不断地修订和完善航海图。航海图使用后使原航行路程缩短了三分之一,并大大减少
9、了航行的危险,此后不仅得到美国海军的使用,而且也被商船大量使用。,案例2:谷歌预测甲型H1N1流感爆发,2009年,在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师在Nature杂志发表一篇令人震惊的论文该文根据互联网上5000万条美国人最频繁检索的词条如“哪些是治疗咳嗽和发热的药物”等,与美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,发现了45条检索词条的组合,再将它们用于一个特定的数学模型所预测的流感发病趋势与CDC曾经预测的相关性高达97%该论文不仅预测了流感在美国全境的发生,还预测了在不同州或地方的传播趋势,而这样的预测不像疾控中心只能在流感爆发12
10、周之后才可以做到,案例3:美国总统奥巴马成功当选竟然靠的大数据,奥巴马在2012年的总统大选中之所以最后胜出,借用了大数据的方法,通过对目标选民的细分,奥巴马的竞选团队甚至对每一个个体选民进行统计,如年龄,性别甚至喜欢在什么时段收看节目这样,在投放广告时才更有针对性。竞选结果表明,他仅以微弱的优势获得了胜利,而这微弱优势的选票,也许就来自于接收到精准投放广告的那部分选民启示:大数据并不是一门高深的“技术”,而是一种思维方式。从部分抽样到全部抽样,不再是传统统计学对趋势的把握,而更加注重个体特征的综合分析,从而得出更有针对性的决策和判断,案例4:挽救早产儿生命本该不脆弱,在加拿大多伦多的一家医院
11、,针对早产婴儿,每秒钟有超过3000次的数据读取。通过这些数据分析,医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施,避免早产婴儿夭折而研究表明,早产儿的稳定有时不是病情好转的标志,而是风暴钱的宁静,就像身体的器官要做好抵抗困难的准备那些由于早产不幸夭折的孩子们在“特定时期”并不会有剧烈的生命体征变化,而通过大数据分析,只要及时进行医疗干预,这些灾难完全可以避免启示:大数据的魔力在于不仅仅是事后的分析评估,而是能够在某种程度上“预知未来”。如果被预测出来的“时间窗口”事关重大甚至像上面的案例讲的“人命关天”,那大数据的价值将不可限量,二、大数据时代的思维改变,一、大数据时代,三、真实世
12、界研究,目 录,大数据时代的思维改变,IBM的资深“大数据”专家杰夫乔纳斯(Jeff Jonas)提出:让数据“说话”大数据时代的三个思维改变:首先,要分析更多的数据,有时甚至要处理与某事物相关的所有数据,而不是依赖靠分析少量数据样随机抽样其次,研究数据如此之多,以至于不再热衷于追求精确性最后,不再探求难以捉摸的“因果关系”,转而关注事物的“相关关系”大数据时代处理数据上的三大转变:要全体不要抽样要效率不要绝对精确要相关不要因果,核心观点:大数据时代“因果关系”变得不那么重要了,大数据时代最大的转变就是:放弃对“因果关系”的渴求,而取而代之关注“相关关系”。也就是说只要知道“是什么”,而不需要
13、知道“为什么”这是对人们长时间积累起来的思维习惯的一次冲击和挑战,但当我们开始习惯用大数据的思维时,经过一段时间的积累,也许就会发现大数据的魅力了最重要的是:人们可以在很大的程度上从对于“因果关系”的追求中解脱出来,转而将注意力放在“相关关系”的发现和使用上,案例因果关系臆想导致错误的理解,案例1:手机是否增加癌症发生率?丹麦癌症协会(2011年10月,英国医学杂志):研究分析了1990-2007年间358403手机用户,在此期间,共有10729名中枢神经系统肿瘤患者,最后发现,手机与癌症风险增加之间不存在任何关系案例2:美国折扣零售商塔基特(Target)与怀孕预测案例3:感冒与穿戴之间没有
14、直接关系案例4:汽车发电机故障与冰激凌,2023/10/4,24,生活中并不缺少美,缺少的是发现美的眼睛 罗丹,生活中并不缺乏数据,只是缺乏善于从数据中发现规律的方法,随访13年HCC累计发生率1(N=3,653),随访11年肝硬化累计发生率 2(N=3,582),基线 HBV DNA(copies/mL),1对1991-1992年台湾3653例HBsAg阳性的人群进行平均13年随访研究.Chen,et al.JAMA 2006;295:65-73.2对1991-1992年台湾3582例没有治疗的HBV患者进行平均11年随访研究.Iloeje,et al.Gastroenterology 20
15、06;130:678-686.,高病毒载量与肝硬化及HCC风险增加相关,Lin SM,et al.J Hepatol.2007:46:45-52.对233例干扰素治疗慢乙肝患者和233例无治疗对照组患者进行中位数随访6.8年(1.1-16.5年)研究,肝硬化累计发生率(%),(月),无血清学转换,血清学转换,0,10,20,30,40,50,0,24,48,72,96,120,144,168,192,216,P=0.031,43.5%,13.5%,HBeAg持续阳性与肝硬化及HCC发生相关,Yang HI,et al.N Engl J Med.2002;347:168174.对1991-199
16、2年台湾11893名男性进行长达10年的随访研究.,累计发生率(%),Year,HBsAg+HBeAg+,HBsAg+HBeAg,HBsAg HBeAg,RR=9.6,RR=60.2,台湾11,893名男性HCC累计发生率,2,4,6,8,10,12,0,1,2,3,4,5,6,7,8,9,10,HBeAg血清学转换与降低肝硬化的发生相关,HBeAg-阴性肝炎(23%),持续缓解(0.5%),HBeAg 逆转(55%),269名台湾自发HBeAg血清学转换HBV携带者长期随访研究(基线时没有肝硬化),Hsu,YS et al,Hepatology 2002;35:1522-1527.,40岁前
17、实现HBeAg血清学转换的患者肝硬化的发生率显著降低,对240例基线ALT正常的HBeAg阳性的患者HBeAg 血清学转换的自然过程的长期研究Chu CM,et al.J Viral Hepat 2007;14:147-152.,所以我们可以看到,大数据是继承创新的源泉,也是继承创新的有力工具利用大数据的继承创新过程,不同于靠抽取小样本产生的精确数据,通过因果关系的分析来回答“为什么”,但可以靠多源混杂全样本,通过相关关系来较好地回答“是什么”,通过数据发声,来帮助人们做出更加准确的决策和对未来的预测在大数据背景下的继承创新之路,将会使人们从因果思维的束缚中得以解放,通过相关思维的世界观,把更
18、多的精力放在提高服务质量和能力上,放在解决发展中的具体问题上,他必将大大推进社会发展的进程和速度,大数据背景下的继承创新之路,让数据说话,利用大数据的继承创新过程,不同于靠抽取小样本产生的精确数据,通过因果关系的分析来回答“为什么”,但可以靠多源混杂全样本,通过相关关系来较好地回答“是什么”通过数据发声,来帮助人们做出更加准确的决策和对未来的预测。在大数据背景下的继承创新之路,将会使人们从因果思维的束缚中得以解放,通过相关思维的世界观,把更多的精力放在提高服务质量和能力上,放在解决发展中的具体问题上。大数据时代,知道“是什么”就够了,不必非得知道“为什么”,而是让数据自己“发声”,绘制当代中医
19、航海图的当务之急,要转变观念,尽快从“因果关系”的渴求中解脱出来,高度关注“相关关系”,找到不断提高中医疗效、提升服务质量和能力的根本途径观念的转变是根本的转变。“大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。最惊人的是,社会需要放弃它对“因果关系”的渴求,而仅需关注“相关关系”这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。”,中医学告诉你“是什么”而非“为什么”,中医学理论体系是一种“关系本体”,强调了主客体的一致、互动和相互影响。它以“效”“阴平阳秘”为尺度,建立了医者主体以及干预措施与患者客体功能状态间直接的、复杂的相关关系,成为一个独特的、系统的
20、、可以有效指导临床实践的理论体系。这一理论体系是一个复杂的巨系统,她尽管还不能很好地从生物学的角度解释“为什么”,但却可以很好地告诉你“是什么”,而正是这些“是什么”已经给人类健康保障做出了巨大贡献,同时也使其流传数千年而不衰而大数据时代关注相关关系的强劲东风,无疑可以吹散当代科学长期以来追求“因果关系”而笼罩在中医头上的阴影,使中医可以理直气壮地沿着自身规律发展,更加道路自信、理论自信、方法自信。大张旗鼓地全力以赴通过相关关系,去寻找更加有效的方法、方药,提高解决临床难题的能力和水平,而不急于投入巨大的精力和资源,利用精确的“小数据”去回答“为什么”。,物联网技术与数字信息技术在中医的应用,
21、大力发展物联网技术,提高数据采集、存储、传输的规范性、正确性和广泛性。随着物联网技术的广泛应用,可以实时自动采集人们衣食住行过程的各种信息,同时可以通过穿戴式采集系统实时收集大量的人体健康状态的变化信息,提高信息采集的完整性、便利性、正确性,同时降低成本。充分利用数字信息技术,大力发展中医诊疗仪器设备,使其成为中医临床信息的重要组成部分,如果这些信息能够与临床诊疗信息融合,必将为提升中医诊疗水平提供有力的支撑。目前在模拟航天训练项目中中医四诊仪的应用,通过远程采集症状、脉诊、舌诊等信息的综合分析,为航天员远程健康状态的自动检测与干预提供新的经验和数据,二、大数据时代的思维改变,一、大数据时代,
22、三、真实世界研究,目 录,临床研究方法,真实世界研究:干预措施效果评价的新理念,随着医学技术及治疗理念的不断发展,“循证医学”理念已深入人心。循证医学指慎重、准确和明智地应用所能获得的最好研究证据来确定患者的治疗措施,其核心思想是在医疗决策中将临床证据、个人经验与患者的实际状况和意愿三者相结合,使患者接受最合理及理想的治疗方案。目前药物上市后的临床证据主要来自于临床再评价研究,包括随机对照临床试验(RCT)、比较效果研究(CER)、药物上市后安全性研究(PSS)、药物经济学研究(PER)等,随机对照试验(RCT)与真实世界研究(RWS),RCT在很长一段时间内被作为治疗性研究的“金标准”,在诊
23、断疾病、评估药物疗效及预后、甄选治疗方案等方面发挥着重要作用。但RCT通常在严格纳入标准下入选研究对象,强调标准化及理想化样本人群,不能代表临床患者接受治疗后的真实情况,这导致RCT结果存在一定局限性由于随机对照试验(RCT)在实际临床研究中存在一定的困难性,近年来真实世界研究(real world research,RWR)引起了医务工作者的关注CER数据来源主要基于临床登记,为真实世界研究(RWS),RCT与RWR的比较,1、临床研究时期与研究目标:RCT关注的是效力研究(efficacy trials),RWR关注效果研究(effectiveness trials)2、研究时间及设计方案
24、以:RCT研究时间通常较短,以试验性方法为主,类试验为辅;RWR一般进行较长观察的临床观察和随访,对健康结局有较好的评价,并根据不同的研究目标和内容选择设计方案,RCT与RWR的比较,3、研究质量控制手段:高质量的RCT要求在厂家过程中采用随机分配、盲法、标准化治疗,有时甚至需要使用安慰剂,通过上述措施,可以对已知、未知的或未观察到的混杂因素进行调整,这是突出优势。但也可能产生三方面的弊端:一是限制结果的外推应用,在RCT中,如果多数患者因无法随机接受干预治疗而排除,那得到的结果也仅适用于与类似RCT中符合入选标准的病患;二是影响结果的可行性;三是不符合临床实际。而RWR的设计思路与之相反,患
25、者对诊疗的选择完全取决于病情和自己意愿,是一个非随机、开放性、不使用安慰剂的非盲试验,与现实医疗环境更接近,不存在外推困难的问题,结果也相对真实可靠,但也由于“开放”产生了明显的观察者偏倚。,RCT与RWR的比较,4、研究纳入和排除标准:RCT通常是在严格的纳入和排除标准下入选研究对象,年龄宽泛。一般排除特殊人群及病情严重、合并症较多的复杂病例,强调的是标准化样本人群,即纳入同质患病人群。这种高度选择限制了许多RCT结果的应用。这些研究中所包含的病患往往与全体患病人群不同,不能代表日常医疗中遇到患者的真实情况,导致RCT所获得的疗效不能代表疾病的全貌,其代表性及外部真实性有一定局限性。Meta
26、分析虽可累计病患的数量,但它基于RCT研究,无法解决研究人群与目标人群存在差异的问题。相比之下,RWR采用较宽泛纳入标准和较少的排除标准,获得一组与试验结果外推人群保持一致的受试者,大大减少了选择性偏倚。,RCT与RWR的比较,5、样本量和代表性:即使最完美设计和实施的研究也可能由于样本量过小而不能准确回答研究的问题。同理,如果一个研究效力低的试验未发现其差异有统计学意义,则无法确定是否两种治疗确无差异,还是由于样本量小使结果产生偏差。所以,对于RCT和RWR来说,样本量都是考察结果真实性的重要指标 6、干预情况:RWR强调真实的治疗,RCT强调标准化的治疗,RCT与RWR的比较,7、结局测量
27、指标与数据采集、管理及统计分析方法:RCT的结局测量多以一个或者一些特定病症或体征为评价目标,而RWR结局测量多采用有广泛临床意义的指标,如病死率、复发率、伤残程度、生活质量等,因此更具临床实用价值;二者都强调应严格控制数据采集、管理和分析过程,所采用的统计学方法学方法基本相同,如卡方检验、Fisher检验、log-rank检验、ROC曲线、Kaplan-Meier生存曲线8、局限性:结论外推性较差是制约RCT的重要原因RWR虽很大程度上克服了该问题,但由于巨大的样本量,使开展RWR的成本相对昂贵,庞大数据的收集整理增大了工作难度。使用注册表分析时也可能存在潜在编码错误和数据丢失的问题,RCT
28、与RWR的比较,RCT与RWR的比较,RCT应该用于评价有效性(efficacy),而RWS用于决定效应性(effectiveness)RWS 提供RCT没有的补充资料RWS 能够作为属于药物流行病学重要的工具用于决定临床实践中真实的效益、风险和治疗价值,RCT,RWS,中国中医科学院,从2001年着手建立中医临床科研信息共享的技术体系,解决将临床实际诊疗信息实时数据化以及对复杂海量临床数据的分析利用的问题。到目前为止,“共享系统”已经建立了“数字化中医临床术语应用体系”、“结构化的临床科研一体化数据采集系统”、“临床数据前处理系统”、“中医临床数据仓库系统”、“中医临床数据多维检索查询与展示
29、系统”与“中医临床数据挖掘系统”“共享系统”已经在国家临床研究基地等20余家医院进行了搭建并投入使用。中医临床数据仓库已经有了10余万数据化的病历资源,并以此为基础开展各种研究超百项以“中医临床科研信息共享系统”为技术支撑,以“真实世界临床研究范式”为指引,将临床实际诊疗信息数据化并开展研究的工作已经开始起步。符合中医自身发展规律的中医临床研究方法与技术体系已经初步形成。,真实世界研究中医临床科研信息共享系统,中医临床信息数据库的建立电子化系统,在目前的中医临床研究中,临床诊疗数据只是其中重要的一部分。为了更全面地从基础医学、临床医学和预防医学角度进行研究,要整合临床病历和相关医学研究数据,为
30、中医辨证论治个体化诊疗体系提供基础原理支持和更深入的科学认识要建立医学健康信息数据库,整合并融合古代文献数据、现代科技文献数据以及HIS、RIS、PACS、病理、用药等临床理化检测数据和基因表达、SNP、蛋白质组学、代谢组学以及新药临床试验等医学生物学研究数据,这样利用大数据所开展的研究,不但能回答“是什么”,同时也可以回答“为什么”了,结 构 化 电 子 病 历 模 板 体 系,数据库体系临床科研共享平台,必填项设置与质控,数据库体系临床科研共享平台,病证结合模板集(科室模板集),模板标准化,前瞻性数据采集,住院采集系统情况目前采集的病例数:1234例研究型门诊采集系统情况重点病种采集病例数
31、:170例,回顾性数据采集,已采集2002年至今10年的重点病种住院资料1000多份;正在采集2002年以前的10年的重点病种住院资料1000份;下一步将对积聚、鼓胀、肝癌、黄疸等疾病作回顾性分析。,建院以来2万病案的数据采集,数据库体系临床科研共享平台,制定数据挖掘方案,数据挖掘,数据挖掘,数据挖掘从数据中学习,2002年中药使用特点清热解毒、利湿药物为主,回顾性研究,2005年中药使用特点活血、化痰药物的使用开始有明显增加,回顾性研究,2011年中药使用特点补气药物的使用开始有明显增加,回顾性研究,比较效果研究(CER)-新兴研究方法,CER是近20年发展起来的一种新的临床研究方法,是RC
32、T研究的进一步补充。CER最初由美国国家卫生理事会提出,2011年,中国学者正式讨论CER,国内相关研究相继启动CER数据来源主要基于临床登记,为真实世界研究(RWS)。属于效果研究范畴,起源于实用性临床试验,通过评估不同治疗或干预措施的利弊,分析不同治疗选择在真实临床环境下的获益及危害,能在更符合临床实际情况的条件下为医疗卫生决策提供证据CER以疾病或者药物为切入点,纳入标准较宽泛而排除标准较少,在纳入较大样本量患者后获得一组较少选择偏倚的受试者,根据受试者的实际病情和意愿非随机选择治疗措施,开展长期评价,注重观察终点事件和不良反应事件,以进一步评价干预措施的外部有效性和安全性。因此,CER研究理念更契合临床实际,避免了RCT的理想化状态,研究结果更容易转化到临床实践中,中国乙肝随访与临床科研平台(CR-HepB),CR-HepB项目计划:2012年启动,内容包括登记中国乙肝患者信息,并对其进行数字化、科学化随访与管理项目目标:规范乙肝治疗科学化的随访管理深入开展乙肝科学研究粗及国内外学识交流提高我国乙肝防治水平目前情况:已纳入16家中心(截至2013-07-24,已纳入患者16568例),并计划在2017年前纳入60家中心,累计登记录入18000例,成为全国最权威的乙肝随访系统,谢 谢!,