该研究使用公开数据集(总共涉及近50,000 名参与者)来分析一系列样本量,结果发现:
全脑关联研究需要数千人才能实现更高的可重复性。典型的全脑关联研究只招募几十人。
所谓的“统计动力不足”的研究很容易偶然发现强但具有误导性的关联,而错过真实但较弱的关联。
传统的“统计学上动力不足”的全脑关联研究已经得出了大量强有力但不可重复的发现。
全脑关联研究的新参数为更好地利用研究结果来改善临床实践和心理保健提供了方向。
“几十年来,我们一直强调MRI 在精神健康障碍和神经系统疾病的临床护理中的潜力,包括诊断、风险、治疗反应等。然而,这种潜力尚未完全实现,”资深作者Damien 说费尔是明尼苏达大学共济会大脑发育研究所(MIDB)红叶捐赠基金的主任。 “我们现在知道我们的方式是错误的,并正在重新定义所需的参数,即所谓的‘特殊酱汁’,以有效地向前推进。”
为了确定全脑关联研究的问题,该团队首先访问了三个最大的神经影像数据集:青少年大脑认知发展研究(11,874 名参与者)、人类连接组项目(1,200 名参与者)和英国生物库(35,375 名参与者)。然后,他们使用不同大小的子集分析了这些数据集的大脑特征与一系列人口统计、认知、心理健康和行为测量之间的相关性。他们尝试使用单独的子集来复制任何已识别的相关性。在MIDB 信息学小组和明尼苏达超级计算研究所强大的计算资源的支持下,他们总共进行了数十亿次分析。
研究人员发现,使用25 个样本(已发表论文的样本量中位数)确定的大脑行为相关性通常无法在单独的样本中复制。随着样本量增加到数千,相关性变得更有可能被复制。强大的重现性对于当今的临床研究至关重要。
资深作者、华盛顿大学神经病学副教授尼科·多森巴赫博士表示,这些发现反映了寻找大脑和行为等两个复杂事物之间相关性的研究中存在的系统性结构问题。
“对于任何个人研究人员或研究来说,这都不是问题。这甚至不是神经影像学特有的问题,”多森巴赫说。 “大约十年前,基因组学领域发现了基因组数据的类似问题,他们采取措施解决这个问题。美国国立卫生研究院开始资助更大规模的数据收集工作,并强制要求公开共享数据,这减少了偏见,并且因此,基因组科学已经变得更好,有时你只需要改变基因组学就已经为我们指明了道路。”
神经影像学研究既昂贵又耗时——仅仅在MRI 机器上进行一小时就可能花费1,000 美元。多森巴赫说,如果将多项小型研究的所有数据汇总在一起并进行分析,包括统计上不显着的结果和微不足道的效应大小,那么结果可能更接近正确的答案。
“该领域的未来现在是光明的,在开放科学、跨机构的数据共享和资源共享方面,可以向任何想要使用它们的科学家提供大型数据集。这篇论文就是一个很好的例子,”费尔说。 “在MIDB,我们正在努力为各行各业的科学界提供必要的资源,以尽可能最好的方式开展他们的工作。”
参与这项研究的明尼苏达大学其他部门包括神经影像基因组数据资源中心和MIDB 信息学小组的明尼苏达超级计算研究所。