为了满足这一需求,西奈山伊坎医学院的研究人员分析了两个大型生物样本库中存储的数千人的DNA 序列和电子健康记录数据。总体而言,他们发现致病基因变异实际上导致疾病的可能性相对较低,约为7%。尽管如此,他们还是发现了一些与广泛的疾病风险相关的变异,例如与乳腺癌相关的变异。该结果发表于《JAMA》,可能会改变与这些变异相关的风险的报告方式,并有一天帮助指导医生如何解释基因测试结果。
“这项研究的一个主要目标是生成有用的高级统计数据,定量评估已知致病基因变异可能影响个人疾病风险的可能性。”
过去20年来,科学家们已经鉴定出数十万种可能导致各种疾病的变异。然而,由于这些发现的性质,很难估计(或提供统计数据)每种遗传变异发生这种情况的真正风险。迄今为止,大多数估计都是基于涉及少数受试者的研究,这些受试者要么是有该病史的家庭的一部分,要么是在特定疾病诊所招募的。但像这样的研究不使用大量随机选择的人群,可能会高估变异所带来的风险。在这项研究中,研究人员通过搜索72,434 人的大规模DNA 测序数据中的37,780 个已知变异来解决这个问题,然后扫描每个人的健康记录以查找相应的疾病诊断。
这项广泛的搜索涉及西奈山BioMe 生物库项目的29,039 名参与者和英国生物库的43,395 名参与者。
领导这项研究的伊恩·S·福雷斯特(Iain S. Forrest) 表示:“这项研究的想法来自一次头脑风暴会议。Do 博士和我讨论了需要有一个更好的系统来对疾病风险进行分类。目前,变异体正在通过广泛的分类进行分类。”标签,例如“致病性”或“良性”,正如我在临床上了解到的那样,这些标签存在很多灰色地带,就在那时我们意识到将DNA 序列数据与电子健康记录联系起来是一个无与伦比的机会。解决这一需求。”
初步结果显示,其数据集中的157 种疾病可以与5,360 种变异相关,这些变异被ClinVar 定义为“致病”,或被生物信息学算法预测为“功能丧失”。平均而言,“渗透率”或变异与疾病诊断相关的可能性较低,具体为6.9%。同样,平均风险差异(描述携带该变异的个体与未携带该变异的个体相比,患病风险增加)也较低。
“起初,我对这些结果感到非常惊讶。我们发现的风险低于我的预期,”Do 博士说。 “这些结果提出了我们应该如何对这些变异的风险进行分类的问题。”
尽管有这些结果,与某些遗传变异相关的风险仍然很高。例如,乳腺癌基因BRCA1和BRCA2致病变异的平均渗透率为38%,个别变异的渗透率范围为0%至100%。
进一步的结果显示了使用生物样本库数据的额外优势。在一个例子中,研究人员能够计算出与年龄相关的疾病的风险,例如某些形式的2 型糖尿病以及乳腺癌和前列腺癌的个体变体。平均而言,这些变体在70岁以上人群中的渗透率约为10%,在20岁以上人群中约为8%。
研究小组还发现,某些变异的存在可能取决于个人的种族,并确定了100 多种专门在非欧洲血统的个体中发现的变异。
最后,研究人员列出了研究本身可能低估或高估所报告风险的几种潜在方式。
“虽然还需要更多的研究,但我们认为这项研究是良好的第一步,最终将为医生和患者提供做出更精确诊断所需的准确和细致的信息,”Do 博士说。