从基因分析中, 还可以看到人口的迁移规律在基因上留下的痕迹 。 比如, 研究人员发现与北京的汉族人亲缘关系最近的不是北京人, 而是更接近沿海省份的人口:山东、浙江、江苏、福建以及江西, 这可能反映了人口向北京迁移的过程 。
所有南方省份与南部沿海省份的亲缘关系更接近, 而北部省份则与北部沿海省份关系密切 。 研究者认为这一观察结果可能反映了自1949年以来政府组织的内部移民事件以及自1979年以来中国从内陆到沿海地区的劳动力转移 。
“所以我们今天看到的基因分析结果都跟中国人祖先的迁徙和演化有关系, 从数据中看到的其实是历史上我们先辈迁徙和与自然抗争的基因记录 。 ”金鑫说 。
双胞胎基因
由于此次研究的样本全部来源于孕妇, 因此不仅可以研究中国一般人群的基因情况, 也是研究与孕产相关基因的好机会 。
研究人员对两个与孕产有关的表型进行了研究, 分别为怀孕年龄和多胎怀孕 。 他们发现了两个与怀孕年龄显著相关的基因位点, 这两个位点的突变与生育力等因素密切相关 。
另外, 研究人员还发现了一个与怀双胞胎显著相关的基因突变位点, 这一突变在怀有双胞胎的母亲中比较常见 。 也就是说携带NRG1基因的突变, 有高更的几率怀上双胞胎 。 “此前人们在小鼠模型中研究过这个基因, 发现其突变与小鼠产仔数量有关系 。 ”金鑫说 。 敲除这一基因会导致小鼠的产仔数减少 。 当然, 携带这一基因会增加怀双胞胎的几率, 但并不意味着一定会生下双胞胎 。
中国人的百万基因组计划
全世界已经有超过1000万人进行过无创产前基因检测, 其中中国就有700~800万 。 无创产前基因检测采集孕妇的静脉血, 对母体外周血浆中的游离基因片段进行测序, 对胎儿染色体非正倍体进行筛查 。 人们比较熟知的是, 这种方法可以比较准确地检测唐氏综合征 。
通过这一检测积累的大量中国人基因数据, 是一个巨大的基因宝库 。 “我们认为, 未来科研领域的大数据, 一定不只是来源于假说驱动的有限的科研项目 。 大量的数据一定是来源于数据驱动的真实的应用场景, ”金鑫说, “在临床的场景或者健康的场景下, 产生的数据, 如何在保障个人隐私和数据安全的基础上, 合理合规有效率地用于科学研究, 这对全人类来说都是非常重要的事情 。 ”
所以, 当研究人员看到全球人群基因组飞速发展, 尤其英国已经完成了10万、50万, 正在迈向500万人, 而中国还停留在300人时, 他们想到的追赶方式, 就是利用已经在临床场景中产生的大量数据 。 此次使用的样本量是14万人, 几乎相当于中国人口的万分之一, 是一个颇具代表性的大样本量 。
然而, 由于这些数据原本只是满足临床所需, 单个样本检测的基因组数据量比较少 。 据金鑫介绍, 产前基因检测获得的个体基因组数据, 还不到整个基因组的10% 。 “一般进行全基因组检测, 会产生100G以上的数据量, 但我们的数据只有几百兆 。 ”这意味着, 对于个人而言, 全基因组测序数据量是无创产前基因检测数据量的上千倍 。 “所以, 这个历时两年的研究项目, 大部分的攻关都花在如何在少量的数据下, 也能够体现整个人群的特征, ”金鑫说, “我觉得这可能也是大数据的魅力, 就是当所有样本放在一起分析的时候, 缺失的部分可以互相弥补 。 ”
未来, 金鑫与他的团队还有更大的计划, 他们预计在未来3年内, 将中国人群样本量扩大到100万人 。 这又将是一个艰辛的过程, 他们还将面对大量需要细致耐心的数据整理工作, 以及呈指数级增长的计算量 。
推荐阅读
- 中国大学排名完整 2020中国大学排行榜
- 二本线大学有哪些 中国二本线都有哪些大学
- 中国的四大名山是指哪几座山 中国的四大名山分别是什么
- 中国科学家发现植物“抗病小体” 将大幅减少农药施用
- 中国自主培育出人源化抗体小鼠
- 专家:“超级真菌”在中国大规模暴发可能性较小
- 最新版中国综合地层时间框架发布
- 中国细胞生物学学会:科研伦理的高压线不容碰触
- 日本战国时代对应中国 日本战国时代对应中国是什么时候
- 2018年度十大科学进展:展现中国科技创新的硬核实力
