1

News

地址:

电话:

凯时官方手机app
当前位置: > 凯时官方手机app >

Nat Mach Intell 速递:利用胶囊网络预测复杂遗传病的患病率

日期:2024-02-29     浏览: 次   编辑:admin

  具有复杂遗传结构的疾病往往会包含相当数量的遗传变异,尽管这些变异在疾病中发挥了作用,但上述变异往往未被发现凯时官方手机app。造成这种现象的两个主要原因是:这些变异不会有叠加效应,而是以复杂的方式相互作用;此外,正如最近提出的凯时官方手机app,全基因模型(omnigenic)假设变异以整体方式相互作用以促成疾病表型。Nature Machine Intelligence 的这篇文章提出疾病胶囊(DiseaseCapsule),一种胶囊网络为基础的方法凯时官方手机app,显式地解决捕获基因组数据中的等级结构问题,并有可能充分捕获变异和疾病之间的非线性关系。当从个体基因型谱预测疾病发生时凯时官方手机app,疾病胶囊是第一个以全基因组方式进行操作的方法。

  在实验中,研究人员评估了“疾病胶囊”对肌萎缩性嵴髓侧索硬化症(ALS)和帕金森氏病的作用,特别关注 ALS,它已知具有复杂的遗传结构凯时官方手机app,并且呈现出 40% 的遗传度缺失凯时官方手机app。在 ALS 上,疾病胶囊在预测疾病发生方面达到了 86.9% 的准确率,因此大大优于其他所有方法凯时官方手机app。此外,疾病胶囊需要足够少的训练数据才能达到最佳性能。最后但并非最不重要的是,疾病胶囊发现了922个特别感兴趣的基因,以及644个“非加性”基因,这些基因是疾病胶囊预测中用到的关键因素,但在线性方案中被忽视。

  整合全基因组数据意味着处理数百万维的特征空间,这与人类基因组中多态位点的数量相对应。这些基因特异性主成分可以以非线性方式组合,以反映基因之间的非线性相互作用,其中非线性可以跨越整个基因组。疾病胶囊有两个直接的理论优势。首先,因为它是在整个基因组中运作的,所以疾病胶囊不需要专注于几个与疾病相关的核心基因,所以它不会错过丰富的外周基因的微弱作用。其次凯时官方手机app,由于胶囊网络能够捕获高度复杂性,在捕获基础遗传相互作用的等级结构方面有所改进凯时官方手机app,体现在通过使用完全连接的架构,而不是将卷积层作为胶囊网络的早期层。可以最大限度地捕获整个基因组中基因之间的相互作用凯时官方手机app,并对输入数据的顺序自适应。

  疾病胶囊的表现优于所有最先进的方法: 在测试数据上的准确率达到了87% 凯时官方手机app。这意味着比 PRS 相对增加了28%的错误分类凯时官方手机app。该方法还兑现了其在临床实践中应用的两个主要理论承诺: 可持续地输入训练数据,这在提高临床数据时降低了成本和努力凯时官方手机app,以及在预测的可解释性方面取得进步,表现就是揭示了922个与 ALS 相关的候选基因,其中许多在遵循标准 GWAS 方案时没有被指出凯时官方手机app。

  图1. 疾病胶囊的运作流程,基于来自4个批次的10456个全基因数据凯时官方手机app,经过质控,批次效应去除,选出合适4.3M个SNP,之后分为测试和训练数据集凯时官方手机app凯时官方手机app,通过 PCA 降维,将降维后的结果经由胶囊网络得到分类结果。

  图2. 疾病胶囊的网络架构,输入是来自所有 Gene-PCA 模型的压缩特征向量,其中每个特征对应于一个 Gene-PCA。基因主成分分析的数量为 75,584,因此输入维数为 75,584 × 1。疾病胶囊由三层组成: 完全连接层(FC)凯时官方手机app、初级胶囊层 (PrimaryCaps) 和表型胶囊层 (phenoCaps)。FC 层由150个神经元组成,其次是激活函数。PrimaryCaps 由32个主胶囊组成。它们每个都包含四个不同的卷积滤波器(内核大小5 × 1凯时官方手机app凯时官方手机app,步长2,无填充)。表型胶囊由两个16维向量组成。每个表型胶囊接受来自所有32个初级胶囊的输入凯时官方手机app。输出是一个二元分类标签(健康或 ALS)。

  图3. 初级胶囊与表型胶囊在ALS上所有基因中的的偶联系数分布。红色虚线个基因作为分类的决定性核心基因。B凯时官方手机app,使用922个随机选择的基因作为疾病胶囊模型的输入(重复1,000次) ,而其他基因被掩盖(设置为零)的测试准确性分布。红色虚线个核心基因作为输入的测试准确性。C,以922个核心基因为输入的平均耦合系数矩阵热图(测试数据)。

  原标题:《Nat. Mach. Intell. 速递:利用胶囊网络预测复杂遗传病的患病率》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点凯时官方手机app,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。