美国突然对中国关闭核心生物医学数据库,该数据库有哪些价值?此举将产生哪些影响?
好吧,这次真的是利益相关了,NIH这是打算是给中国的生物狗们一个迎头痛击。
4月2日,美国NIH宣布从2025年4月起,将禁止包括中国在内的“受关注国家”访问其核心受控数据库,包括人类基因型-表型数据库(dbGaP)和基因组云平台AnVIL。这条消息在全球科研圈掀起波澜,很多人担心中国医学研究是否会因此被“卡脖子”。
但实际上,也没有到什么天塌下来的程度,其实之前我们内部就有过很多这方面的讨论,当时就讨论过如果美国封锁核心生物数据库,中国怎么办?
实际上,作为华大人,我想我们早就预判到了这一步,并且,中国不但有自己的数据库体系,而且有能力构建更先进、更开放、更适合本土科研生态的生物信息平台。
NIH数据库为何重要?
从科研视角来看,NIH的dbGaP和AnVIL平台有三大价值:
- 代表性强:dbGaP囊括了多个种族的人群遗传数据,覆盖从全基因组到外显子、SNP、甲基化、转录组等多个层次;
- 数据量大:项目众多,样本规模动辄成千上万,具有统计显著性和跨疾病适用性;
- 分析工具完善:AnVIL为大数据分析提供了云端算力和算法框架,降低了数据门槛。
因此,对需要对照组、做泛人群遗传变异研究、开发AI模型的研究者来说,这些数据库的封锁确实带来不便。
美国“数据战”的本质是什么?
此次行动不是孤立事件,而是美国拜登政府第14117号行政命令的延续,核心意图是:
将个人敏感生物数据纳入国家安全范畴,限制潜在对手国获取美国人基因信息。
这实际上是一种数字主权下的科研脱钩。如果说芯片是产业链的战场,那数据库就是知识链的战场。
中国真的没办法了吗?我们其实早就在干了
在很多新闻里,这个问题被讲得太悲观了。但你若站在我们在国家基因库工作的视角来看,中国过去十年在生物信息基础设施方面的进展其实非常清晰和坚定,甚至可以说是“未雨绸缪”。
下面我梳理一下中国目前的“三驾马车”:
一、国家生物信息中心(CNCB)|科学院主导,技术体系自洽
CNCB - HomeCNCB 整合了国家基因组科学数据中心(NGDC),以大数据基础设施和生信分析平台为核心优势:
- 数据类型:覆盖DNA、RNA、甲基化、宏基因组、单细胞等;
- 数据规模:海量组学数据,包括 BioProject、GSA、GEN、HGA、GWAS Atlas 等资源;
- 技术体系:自建云平台、数据标准齐全,符合GA4GH等国际通用规范;
- 优势人群:基于中国本土人群的变异数据库(HGD, PGVD)尤其关键。
这是一套技术逻辑完整、标准逐步完善的“国家级数据中枢”,对标美国NCBI生态。
二、国家基因库数据库平台(CNGBdb)|由华大牵头,我熟悉的地方
China National GeneBank DatabaseCNGBdb 它不只是一个数据库,更是大数据基础设施、样本资源管理和数据共享机制的综合体:
- 数据全面性强:从人类样本到微生物、动植物、空间组学、古DNA都有;
- 疾病数据丰富:尤其在罕见病、肿瘤、传染病等领域,积累了成规模的临床关联数据;
- 平台技术先进:采用云计算、分布式存储和深度可视化系统(比如Data Viewer);
- 国际合作经验:作为GISAID在华唯一数据托管合作方,承载了新冠期间全球数据分发重任。
如果说CNCB是技术体系完备的“骨架”,那CNGBdb就是注重临床应用和资源流通的“血液”。
这里在多写一点,关于CNGB应对NIH断联的准备。
CNGBdb(序列归档系统https://db.cngb.org/cnsa/)作为我国自主可控的公共核酸序列数据库,数据所有者可递交数据到CNGBdb进行归档和公开共享(支持原始数据(fastq/bam),组装数据(fasta),变异数据,代谢数据,单细胞数据和时空组数据等多种数据类型的归档),打破外国对生命科学领域数据库的垄断,从而保障我国科研工作者的成果发表,促进我国生命科学领域的健康发展。NCBI用不了?国家基因库早有准备
CNGBdb一直致力于稳定、可靠、持续的科学数据存储库建设,并推动科学数据的安全共享:CNGBdb已通过CoreTrustSeal全球核心可信存储库、FAIRsharing国际认证及国际科研数据仓储目录re3data收录,支持Elsevier、Wiley、Taylor & Francis、Oxford、Cell Press、Science等多个国际著名出版社/系列期刊投稿发文,交到CNGBdb的数据统一进行DOI(数字对象标识符)标识。
此外,CNGBdb还成为国际科学理事会(ISC)世界数据系统(WDS)在生物信息领域的首个正式会员,显著提升了我国在国际生物科学数据领域的主权地位。
截至目前,CNGBdb已归档多组学数据17664TB,支撑全球642个科研单位的科研数据汇交和共享,支持论文发表1902篇,发表期刊435种,包括The Lancet、Science、Cell等。
除了用户自主递交的数据外,CNGBdb还定期备份全球其他重要数据源(如美国国家生物技术信息中心NCBI、欧洲生物信息研究所EBI等)的公开数据,包括NCBI的基因组装数据等。CNGBdb提供文献数据,样本数据,基因数据,变异数据等多种数据的互联互通和开放使用。
三、中国本地医院+科研单位的“微数据库”群
虽然不如国家级平台集中,但越来越多医院和科研所开始构建自己的样本库+数据库,如:
- 北京协和医院的罕见病基因库
- 上海瑞金医院的肿瘤表观组学平台
- 浙江大学脑科学中心的多模态神经影像+转录组联动库
这些看似“孤岛”,但正在通过像“国家健康医疗大数据平台”等项目逐步互联互通。
那现在NIH玩断联,中国怎么办?
短期来看,我们首先要做的,是稳住科研节奏、保障已有合作项目不受冲击。
当下需要有三件事情要做。
- 优化已有数据使用策略:许多研究团队过去已经下载或申请过NIH数据,这些本地副本在可控条件下依然可以使用。通过“数据再分析”挖掘潜力,是现阶段性价比最高的办法;
- 使用模拟数据和国内替代资源:在做AI建模、泛人群统计时,可以用生成式模型(synthetic cohorts)或国内已有多族群数据集(如CNGBdb中的多样性数据)作为训练/对照替代;
- 对在研项目做数据“风险评估”:比如有没有关键分析依赖外部dbGaP样本?是否涉及跨国数据流动?这些都需要提早调整和备案。
中期来看,我们应该把这次封锁当作一个加速自建的契机。
其实之前为什么国内的大数据库做不起来的一个原因就在于,很多人认为已经有这么一个成熟开放的数据库供大家使用,为什么我们还要投入那么大的财力物力和人力去重复发明轮子呢?
所以说这次NIH的断联,即是一个风险,同样也是一个机遇。一方面,我们要强化以CNGBdb、CNCB为代表的平台能力,不只是数据收集,还包括数据可视化、分析工具和用户友好程度;
而另一方面,要推动建立一个面向“人类表型+基因型”的自主大队列数据库,特别是在肿瘤、罕见病、慢病等领域。这其实是打造中国版“dbGaP”的关键一步。
从长远来看,更重要的,是把生命数据纳入国家数据战略框架中。
我们需要从顶层设计层面解决三个问题:
- “数据主权”与“科研开放”如何平衡:比如通过联邦学习、多方安全计算等技术实现“用数据但不拿数据”;
- 建立适用于医学研究的脱敏标准与审计制度,保障隐私又不阻碍科研;
- 发展非美主导的国际数据联盟,如加强与欧洲、日本、东盟的科研数据协作,构建更健康多元的共享机制。
换句话说,美国选择“关门”,不代表中国就要闭门造车。我们完全可以构建一个更安全、更开放、更多元的生命数据新生态。
中国要如何打造一个开放安全的数据生态?
我们国家目前也颁布了两个重要的相关法律。
《人类遗传资源管理条例》(2019年7月施行),这是最核心的一部法规。
核心条款包括:
- 外国机构和个人不得擅自收集、保存中国人类遗传资源;
- 中外合作使用遗传资源需申报并获批;
- 人类遗传资源数据向境外提供的,须报科技部批准;
- 非人类遗传资源(如微生物、动植物)不适用于本条例,但部分数据仍可能受其他规定限制。
2. 《数据出境安全评估办法》(2022年施行)
- 对提供重要数据或含个人信息的数据出境设定了较为严格的安全评估机制;
- 生物医药、健康医疗数据被列为“重点数据类型”;
- 超过一定量级的医疗健康数据,需申报国家网信办进行安全评估。
那外国科研人员如何使用我们国内的信息呢?像CNGBdb、NGDC等平台都设置了细致的数据获取权限:
- 用户需实名认证(包括外籍申请人);
- 需填写详细的数据使用申请,说明用途、分析方式、是否含敏感信息再处理等;
- 有严格的数据引用和保密协议;
- 特别数据(如人类样本表型+基因信息联动数据)仅限国内研究用途,或需合规联合项目框架下进行。
这也整说明了我们国家的模式:
中国并不是“开放不设限”的,但也并非像美国那样全面封堵。我们的政策重在有序开放、合规出境、受控使用,本质上是一种“数据外交”与“科研治理”的折中模式。
总结一下:数据“脱钩”,也是我们做大平台的机会
最后我想说一句心里话:
NIH封锁数据是挑战,但它也让我们更坚定:要把自己的数据库做大做强,不只是为了对抗,而是为了真正自主。
生物医学的未来,不应该因为国籍被隔离。真正推动科学进步的力量,应该来自对知识开放的信念——而我们,必须也可以,做出一个不一样的选择。