《《人类疾病网络》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《人类疾病网络》PPT课件.ppt(72页珍藏版)》请在三一办公上搜索。
1、人类疾病网络,张媛媛,1,*,背景在刻画人类疾病位点的研究中,很多疾病基因的位置克隆和全基因组的关联研究,产生了疾病与基因的关联对列表。另外,蛋白质相互作用,人类代谢图谱和调控网络等都为不同疾病基因间的相互作用提供了一些细节描述。,2,*,给出一个不同的方法,在细胞和有机体的组织的高水平上,探索人类遗传疾病和对应的疾病基因是否可以彼此相关联。通过提供有多个基因引起的疾病(基因座异质性)的例子来支持这个方法的有效性。比方说,脑肝肾综合症是由至少11个基因的变异引起的,所有的都与过氧化酶体的生物发生有关。还有由一个基因的不同变异(等位基因异质性)的疾病。比方说,TP53的变异被关联到11个临床上不
2、同的癌症相关疾病。通过发展一个全部遗传疾病(疾病表型组)和全部疾病基因(疾病基因组)的关联框架,得到对疾病组学的全局认识。,3,*,结果和讨论,疾病组的构建:构建两个不相交顶点集的二部图。一个集合对应所有的已知遗传疾病,另一个集合对应人类基因组的所有已知的疾病基因。如果一个基因的变异暗示了某种疾病的发生,则疾病和基因相关联。疾病、疾病基因和他们之间的关系的列表都是从OMIM获得。到2005年12月,包含了1284种疾病和1777个疾病基因。我们基于被疾病所影响的生理系统,将疾病分成22类疾病。,4,*,由疾病组的二部图可以产生两个相关的生物网络投影。一个是人类疾病网络(HDN),顶点是疾病,当
3、两个疾病共享至少一个疾病基因时,二者关联。另一个是疾病基因网络(DGN),顶点是疾病基因,当两个基因关联到同一疾病时,二者相连。然后,我们讨论了这些网络对于帮助我们理解和代表所有已知疾病和表型关联的框架的潜力。,5,*,6,*,HDN的性质:如果一个人类疾病有不同并且唯一的遗传原因,那么HDN对应的是不连通的孤立点。但,获得的HDN包含了单个疾病间和疾病类间的很多关联。1284个疾病中,867个至少一个边关联到其他疾病,516个疾病形成一个巨大的类,暗示很多疾病同其他疾病是同享遗传原因。一个疾病关联的基因数目s有很宽的分布,暗示大多数疾病关联到少数基因,很少的疾病关联到很多基因。白血病s=37
4、,结肠癌s=34等。HDN的度分布也是幂律的,结肠癌k=50,7,*,灰色表示linear binning;红色表示以2为底的对数数据,8,*,HDN有明显的聚类现象,但在不同疾病类之间有明显的不同。癌症类因为共享很多癌基因,所以紧密相连,并且还有很多疾病同癌症有强相关;代谢疾病没有明显的形成一个不同的类。如图三为了量化这种差异,我们衡量了每个疾病类的基因座异质性和连通性(HDN中彼此连接的一部分疾病)。如图四,红色代表较高的显著性,蓝色代表较低的显著性。发现癌症有着较高的异质性和连通性,而代谢类有较低的异质性和连通性。基因座异质性:指多于一个基因的变异。用属于这个类的疾病中基因的平均数目(也
5、就是节点的平均大小)来衡量。一个类的连通性:用在HDN中彼此互相关联的一部分疾病来衡量,9,*,10,*,11,*,DGN的性质基因间的关联,代表了相关表型关联,他们代表了表型相关性的衡量,这个可以用在未来的研究中,同蛋白质相互作用、转录因子启动子相互作用、代谢相互作用关联,发现新的遗传相互作用。在DGN中,1377个疾病基因连接到其他基因,903个基因属于一个巨大的类。如图五涉及多种疾病的基因数目急剧减少。如图六,12,*,13,*,14,*,HDN和DGN的功能类在保持疾病和基因的度不变的情况下,在二部图基础上随机化重连边,得到的疾病网络的最大类的平均大小是64316,远大于实际HDN中的
6、516。相似,基因网络的最大类的平均大小为108720,也远大于实际DGN中的903(P10(-4))。这些不同显示了疾病和基因的重要的病理生理学类。在实际的网络中,疾病(基因)更倾向于相同疾病类中疾病(基因)的相连。,15,*,疾病关联基因识别不同功能模块大多数的疾病和疾病类对应细胞内网络中怎样的不同的功能模块仍然不清楚。假设1:如果编码蛋白质的疾病关联基因在功能不同的模块中相互作用,则在这些疾病模块中的蛋白质比其他蛋白质更可能相互作用。为了检验这种假设,建立了蛋白质相互作用网络,发现290个重叠的相互作用,是随机情况下的10倍。,*,16,同一个疾病关联的基因共享一般的细胞和功能特性,在G
7、ene Ontology(GO)中注释。假设2:如果HDN显示模块化组织,则与相同疾病关联的一组基因应该分享相似的细胞和功能特性,正如在GO中注释的一样。为了证实这个假设的有效性,对于GO的每个分支(生物过程、分子功能和细胞组分),我们测量了每个疾病的GO同质性。发现有很高的显著性。GO同质性:,是疾病i关联的有GO术语j的基因数目;是与疾病i关联的有GO注释的所有基因数目。,*,17,*,18,假设3:在一般功能模块中相互作用的编码蛋白质的疾病基因应该趋向于在相同的组织中表达。为了衡量,我们引入疾病的组织同质系数。定义为:其中 表示对于疾病i的关联基因至少在一个组织中表达的基因数目,表示在组
8、织j中 表达的基因的数目。如右图,有68%的疾病有 完全组织同质性,随机情 况下为51%。(P10(-5),*,19,最后,参与一个功能模块的基因应该显示较高的表达谱相关。通过与随机控制的比较,发现关联相同疾病的基因对的Pearson相关系数(PCCs)有较高的值。一个给定疾病的所有基因对的PCC的平均值也存在显著性。大约33种疾病的平均PCC0.6。,*,20,总结:关联同一疾病的基因1)他们对应的产物通过蛋白质相互作用倾向于彼此连接;2)倾向于在特异性组织中共同表达;3)显示较高的共表达水平;4)作为一个组显示同步表达;5)倾向于共享GO术语。这些支持了对于疾病基因和他们产物的全局功能相关
9、性,提供了一个疾病组的基于网络的模型,*,21,中心性和外围性一个细胞网络的结构和它功能特性的关联的最早的解释是在酿酒酵母中高连通蛋白或hubs更倾向于被关键基因编码。这促使研究者对人类疾病基因倾向于编码hubs的假设进行研究,但有研究者发现,二者仅有很弱的相关性。我们最初的研究是支持这一假设的。但是,疾病基因和hubs的关系在不同疾病基因间是不相同的。,*,22,在探索疾病基因是否编码hubs时,忽略了在早期发育中的关键基因,它们的改变导致高比例的自发流产。通过对老鼠基因的人类同源基因分析,发现1276个人类基因的老鼠重要同源基因,其中398个与人类疾病有关,占人类疾病基因的22%。这样就把
10、人类基因分为:1276个关键基因和1379个非关键疾病基因。发现关键蛋白显示了同hubs关联的趋势,而其余非关键疾病蛋白没有这种趋势。,*,23,*,24,期望:关键基因和疾病基因的表达模式同相当数量的其他基因同步。定义关键基因(或非关键疾病基因)i和细胞中所有其他基因之间的平均基因共表达系数,是从人类正常组织中计算得到的。发现:对于关键基因,有高的的基因比小的或负的的基因更关键;而对于非关键疾病基因正好相反。,*,25,最后,我们问:看家基因是否有一个编码疾病基因的趋势?我们发现一个基因在越多的组织中表达,则这个基因是关键基因的可能性越高。而非关键疾病基因有在很少的组织中表达的趋势。发现9.
11、9%的看家基因对应到疾病基因,13.5%的非看家基因;,*,26,大部分疾病基因的次要性可以用进化的观点进行解释。导致严重表型的体细胞突变更可能影响中心功能。我们分别研究了体细胞癌基因的特性,发现它们更可能编码hubs、显示了与其他基因更高的共表达性、更可能代表看家基因。体细胞癌基因的这种功能和拓扑中心性与当前的理解相吻合很多癌基因在细胞的发育和生长中发挥很重要的作用。,*,27,在人类的复杂表型中探索遗传重叠,某些疾病会在病人中高频率(低频)的同时发生。因此研究疾病间的遗传重叠至关重要。我们用对多种疾病的观察的大量的表型数据集和适当的统计模型,推理表型间的遗传重叠。比方说,孤独症、双相型障碍
12、和精神分裂症存在重要的遗传重叠。因此,这种疾病网络假说可以很快被用在遗传图谱的方法设计上,它涉及看似孤立的多种表型间的联合关联,*,28,数据来源:哥伦比亚大学医学中心的临床资料库。包括161种疾病的150万病人记录。这些数据包含了疾病的比较宽的范围,从一般到稀有,影响不同的生理系统。,*,29,方法:考虑一对疾病D1和D2,模拟一个人在特定年龄或之前的表型。一个人天生带有(没有)疾病易感变化集合,用k1、k2和k12的随机变量表示,这些变量确定了某个人在某个时间被诊断为某种病的概率。如果没有时间的调节,早发疾病和晚发疾病可能被错误的判断为负关联。,*,30,*,31,假设1)如果有两种(多种
13、)不同疾病是在相同环境下发生的,那么它们通常是通过分子机制引发的。2)对于每个表型对D1和D2,整个人类基因组被分为四个不相交的核苷酸位点集合。3)涉及连接疾病表型的四个集合中遗传变异的假设机制。在位点的疾病易感集合中,遗传变异的数目越大,疾病表型越可能显现出来。,*,32,这儿考虑两类遗传外显率函数:sharp-threshold和soft-threshold。Sharp-threshold是指当多态性的数目超过阈值 时,表现出表型i的特征来。是指表现疾病表型i所需要的,在疾病特异性核苷酸位点的有害多态性的最少数目。Soft-threshold是指,阈值是一个随机变量,满足均值为,方差为 的
14、二项分布。(),*,33,对每一个疾病对,我们选择三种模型中的一种进行分析:二者不相关(也就是没有遗传重叠);二者负相关(竞争遗传重叠);二者正相关(合作遗传重叠)。合作模型比标准的遗传多效模型更一般。因为合作模型除了分享的多态性,还允许关联影响各自的遗传多态性。独立模型是两个重叠模型的特殊情况,我们通过将两个重叠模型同独立模型比较,用两个对数似然比统计 代表我们分析的结果。进一步,我们的参数模型提供了对假定遗传重叠的大小的评估。,*,34,相关性和重叠对于遗传重叠的分析显示了疾病间的大量的相关性,很多都被很好的确定,但有些相关性先前没有描述过。与孤独症的遗传重叠的疾病分为四类;双相型障碍和精
15、神分裂症也类似分析。这三种疾病同其余158中疾病的关联,红线代表正相关,蓝线代表负相关。,*,35,*,36,非孟德尔疾病的表型经常定义一个模糊度,尤其是神经学上的。很多情况下,观察到的疾病是有相似症状但可能不同遗传原因的多种病态的混合。我们对一对疾病间遗传疾病的解释不排除一个疾病是另一个疾病的原因的可能,*,37,具体方法:对于病人i的两个疾病D1和D2,第i个病人用下式表示 N是数据库中病人的总数;是病人的年龄;是病人的性别;是病人的种族;和 分别指病人被诊断为疾病D1,D2的年龄。当病人没有被诊断为疾病Dk时,为。,*,38,对于疾病D1和D2,将整个基因组分为四个不相交的集合。尽管我们
16、是集中在点突变的研究,但是我们的方法可以扩展到遗传多态性的其他类型,比方说插入、删除、倒置和替换。对于D1和D2,我们定义四种表型 基因型:的概率。对病人i,我们用随机变量三元组 表示所有有害多态性,这些多态性被分成。这三个随机变量完全描述了病人涉及到疾病D1,D2的基因型。假设 独立的服从poisson分布,参数分别为。如果一个疾病相关的核苷酸位点集合 很小,可以假设用二项分布代替poisson分布。,*,39,给定,的概率(外显函数)我们用 表示一个病人在他生命结束时涉及到疾病D1和D2。定义两个外显函数:一个是在 和 中的有害变异的数目 大于等于一个阈值;另一个定义是指,阈值本身是一个随
17、机变量,所以疾病发生的概率随有害多态性数目的增加而逐渐增加。给定,的概率用 表示一个人在时间t之前的表型。令 和 表示第一次诊断到D1和D2的时间,等价于。因此对于 和,两个疾病表型状态的可能可以用联合失效时间模型来研究,基于类似于年龄和性别的遗传因子和协方差,*,40,然后,我们定义下面的条件概率其中k=1,2.我们可以直接从数据估计,的估计如图一。最后我们定义,在给定,的概率以 的形式给出。,*,41,病人i被诊断为疾病Di的概率为,*,42,两类遗传重叠模型:合作和竞争在合作模型中,重叠基因可以同时对两种疾病贡献;在竞争模型中,重叠基因仅对于其中一种病有贡献,具体对那种病有影响是随机的。
18、似然比检验为了计算第i个病人的似然值,我们需要对给定的 在 所有可能的取值()和 上的概率求和。如果我们假设对于所有的e和g,参数向量 都是一样的,则似然函数是所观察表型的概率的乘积(所有病人);或者,我们根据种族和性别将数据细分,对每个数据子集估计参数的集合。,*,43,核心:我们的分析是模型选择的问题。1)当两种疾病有任意大的遗传重叠时,我们对同一模型有两种看法。(合作或竞争)2)当两个疾病在遗传上是独立的时,我们有一个更简单的模型嵌套在前两个模型里,即 为空,因此,我们可以用一个标准似然比统计量 来计算。随着样本数的增加,渐近的服从 分布。通过计算 和 区分三个模型(独立、合作和竞争)。
19、,*,44,研究人类表型的动态网络方法,通过证明以下事实,我们提供了关于表型疾病网络的结构同疾病发展的理解相关的根据:1)一个人患的某种病在网络中与曾经患过的病接近;2)对于不同性别和种族的病人,疾病在网络中沿着网络边的发展是不同的;3)在表型疾病网络中,有高连通的疾病的病人要比低连通疾病更易于死亡;4)在网络中,后发生的疾病比先发生的有较多的连通,并且与较高的死亡率相关联。,*,45,我们的结果显示,疾病的发展可以用网络的方法进行研究,并且提供了加强对人类疾病的起源和进化的理解的可能性。,*,46,方法,数据医疗机构提供关于疾病诊断的有效的,系统的和完整的数据。每条记录包括:拜访的日期、最初
20、的诊断和到第九级的诊断,所有的都被一个5位的ICD9码指定。前三位指定了主要的疾病类,后两位提供关于疾病的其他信息。ICD-9-CM分类在3位水平上分为657类,而在5位水平上分为16459类。我们基于1990-1993年的住院治疗的MedPAR记录编写了原始的医疗保险声明(medicare claims)。大部分是65岁以上的老人。,*,47,*,48,数据限制:有时候,一个疾病对应多于一个的编码,或者编码对于研究目的没有足够的特定性。例如,在5位数水平上,有33种诊断关联到高血压。有时候,对于脱水这个症状,编码没有指定到任何一个诊断。但是,大部分的疾病被映射到ICD9码。对于那些在老年中不
21、常见的疾病(与怀孕有关的),数据信息不足;并且不包含那些没有住院治疗的病人的信息。,*,49,合并症关系的定量测量引入两个疾病间“距离”的概念。这种方法的困难之处是:不同的统计距离测量有偏差。这种偏差给出了一个疾病被诊断的次数与它的流行程度服从重尾分布。意味着大部分疾病被很少的诊断到,少数疾病在种群的很大一部分被诊断到。因此,定量分析合并症需要比较影响一小部分病人的疾病和影响大部分病人的疾病。用两种合并症测量来定量分析两个疾病间的距离:相对风险比率(RR)和-相关()。,*,50,相对风险率RR:其中 是指被两种病影响的病人数目,N指种群中病人的总数,和 是指疾病i和j的流行程度。RR值的分布
22、如图:,*,51,-相关是对于二值变量的Pearson相关:对于,值的分布如图:,*,52,这两个合并症的测量不是完全独立的,因为他们都随着两个疾病所影响的病人数目的增加而增加,并且这两个测量都有固有的误差。给定两个测量的 互补误差,分别 构建每个测量的 PDN,讨论它们 对于特定疾病组 的各自的相关性,*,53,重要的问题是:基于关系的合并症的预测能力怎么与遗传和已知遗传标记的预测能力进行比较?给定一个疾病,计算与另一种疾病的RR的范围是0.25-16;而兄弟姐妹间的研究表明,他们患同一种病的RR值范围也在这个范围内。在遗传易感研究上的比较。更进一步,可用合并症数据探索疾病风险。,*,54,
23、结果,表型疾病网络(PDN)节点是唯一被ICD9码识别的疾病表型,连接表型的边是根据测量得到的显著性的合并症关系。分别用RR测量和-相关构造了PDN。这两个网络有很多相似之处。但用RR构造的网络对于那些相对不常见的疾病较流行,并且有可辨别的模块,这种模块与ICD9分类有点接近;用构造的网络对于高度流行的疾病很流行。尽管它们之间有这些不同,它们都在不同的流行程度水平上揭示了显著性关联,两者互相补充。,*,55,疾病网络动力学从一个网络动力学的观点揭示PDN对于研究疾病发展的应用。PDN允许我们研究病人从一个疾病到另一个疾病沿PDN中的边发展的动态过程。限制:即使根据诊断时间排好序的疾病,也不能揭
24、示哪个疾病是结果。因此,我们在静态网络上研究疾病发展的可能的结果上用了一个保守的方法。,*,56,通过三个问题探索疾病网络动力学:1)沿PDN的边疾病是不是显著发展的?2)对于不同种族和性别的病人,疾病的发展是不是不同?3)在PDN中,疾病的高连通性是不是同高致命性相关?,*,57,对于第一个问题,我们测量了所有四次访问的病人的第一、二次诊断的疾病和第三、四次诊断的疾病间的平均相关性(N=946580)。构造随机疾病集合作为对照组:保持疾病的流行程度相同,随机选取前两次诊断的疾病。发现真实数据中的相关性更高。,*,58,比较真实和随机情况下的相关性,用,其中 表示真实数据的平均相关,表示对照组
25、的平均相关。,*,59,对于第二个问题,我们用比值比OR(odds ratio)来计算种群和中疾病i和j关系的不同 其中 是疾病i和j在种群中的一个病人中观察到的概率。并且用关联到高血压或局部缺血性心脏病的所有疾病来显示白种人男性和黑人男性对关系的影响。另一个图显示了性别不同对关系的影响,*,60,*,61,*,62,对于第三个问题:首先,我们定义一个疾病的连通性 和。高的 和 表示疾病i在PDN中高连通。其次,为了测量一个疾病的致命性,我们计算在第一次诊断后8年病人减少的百分比。从下图发现连通性和致命性在两种PDN中相关(A和B);发现致命性和流行程度只有弱相关(C);对于某些疾病组,疾病的
26、连通性和致命性关系很强,比方说,对于肿瘤,这种关系很强,而对于精神类疾病,这种关系比较弱甚至为负的。,*,63,*,64,这种关系可能解释是:病的重的病人更容易检测到。通过观察给定拜访次数、诊断次数、最后一次诊断后存活的年数的病人的平均连通性间的相关性来排除这种情况。用7878255个病人的数据集完成上述分析。,*,65,因此,观察到的连通性和致命性的关系不是来自对病重的病人诊断次数的简单的累加。也就是说,一个疾病的严重性跟在PDN网络中的连通性接近。,*,66,最后,简单分析疾病发展的方向性因为对于方向性的分析有限制性,所以,我们的结果只能是建议性的根据,而不是一个证明。为了减少我们分析的噪
27、音,我们集中分析那些在500个病人至少有一个被疾病影响的疾病(0.2%)。从我们数据集的大小,也就是说至少在50个病人中同时发生的疾病。满足这个条件的有518种疾病,包含133858条边。我们用 表示疾病i先于疾病j诊断到的次数,忽视了两种疾病在同一次拜访中同时第一次被诊断到。所以。标准化:。标准化的原因是一个疾病先于另一个疾病被诊断到的概率与流行程度成比例,*,67,定义,当,对于节点i,是出度,相反为入度;表示疾病i先于疾病j被诊断到,比j先于i的概率高10倍;为2是,高100倍。大部分的 值为0,也就是说大部分的边没有显著的方向性,但有一部分边有很明显的方向性。小于-1,大于1的 有15
28、625条边(11.7%);小于-2,大于2的有 229(0.2%)条 边。,*,68,方向性的分析使得我们可以扩展我们对于连通性和致命性的研究。首先定义疾病i的优先:对于先于其他疾病的疾病 为正,相反,为负。与疾病的流行程度不是相互独立的。和疾病的连通性呈现负相关,也就是说,高连通的疾病比其他疾病趋向于后出现,更可能是疾病的晚期。,*,69,*,70,*,71,这样就证实了下面几个方面:1)一个人患的某种病在网络中与曾经患过的病接近;2)对于不同性别和种族的病人,疾病在网络中沿着网络边的发展是不同的;3)在表型疾病网络中,有高连通的疾病的病人要比低连通疾病更易于死亡;4)在网络中,后发生的疾病比先发生的有较多的连通,并且与较高的死亡率相关联。,*,72,