南岛人的起源、混合和迁徙的遗传学见解

**Genetic insights into the origin, admixture, and migration of the early Austronesian peoples** [https://www.nature.pubapi.xyz/articles/s10038-025-01380-8#Bib1](https://www.nature.pubapi.xyz/articles/s10038-025-01380-8#Bib1) **摘要** 我们了解到,南岛语族的祖先约6千年前出现在台湾,之后扩展到台湾以外的地区,但他们的早期起源和与台湾以外人群的关系仍不确定。通过重建线粒

南岛人的起源、混合和迁徙的遗传学见解

Genetic insights into the origin, admixture, and migration of the early Austronesian peoples

https://www.nature.pubapi.xyz/articles/s10038-025-01380-8#Bib1

摘要

我们了解到,南岛语族的祖先约6千年前出现在台湾,之后扩展到台湾以外的地区,但他们的早期起源和与台湾以外人群的关系仍不确定。通过重建线粒体和Y染色体单倍群以及全基因组数据的系统发生模式和地理分布,新证据表明,前南岛人可能起源于新石器时代早期(>10千年前)的中国东南沿海地区(以福建为中心),除狩猎采集外,还依靠海洋资源生存。随后,他们与一些中国北方(山东)的古代人群混合,引入了混合的粟米和水稻种植,形成了原南岛人(约7-10千年前)。后来,早期南岛人(约4-7千年前)演化并迁徙到台湾(约6千年前),然后通过菲律宾(约4.1千年前)扩散到岛屿东南亚、占婆、泰国南部、马达加斯加和大洋洲。第二个来源是南亚语族的祖先,他们起源于新石器时代早期的中国南方,并在新石器时代晚期通过东南亚大陆和马来半岛迁徙到岛屿东南亚。他们与来自台湾的核心南岛语族混合成为南岛语族,并扩散到大洋洲。语言学和考古学发现也支持南岛人的起源和遗传史前历史。最近,一些岛屿东南亚的南岛人与来自南亚的新来者混合。南岛语族的祖先既不是起源于岛屿东南亚,也不是直接从中国大陆迁徙到菲律宾,与所谓的"两层"假说也没有关系。未来的研究需要更多旧石器时代和新石器时代的遗传证据,改进遗传年龄估计,以及多学科的一致性。

引言

南岛语系包括分布在台湾、岛屿东南亚(ISEA)、占婆、泰国南部、大洋洲和马达加斯加的1000多种子语言,跨度超过10,000英里,使用人口超过4亿。考古学[1, 2]、语言学[3, 4]和遗传学[5,6,7]研究均认同他们起源于新石器时代的台湾。这一多学科共识标志着南岛语系使用者在台湾的起始,以及后来他们从台湾向外迁移,尽管详细的机制仍存在争议。台湾南岛人(TA)的扩散模式已经确立,但在进入台湾之前南岛人的起源仍不确定。根据地理位置,中国大陆被认为是最可能的起源地[8],但目前该地区已无南岛语系使用者。

鉴于这种模糊性,遗传学研究可以提供另一条证据线索,为南岛人在到达台湾或岛屿东南亚之前的起源、混合和迁徙提供见解。在早期的遗传学研究中,Li等人[9]利用Y染色体单倍群报告称,台湾南岛人和印尼南岛人可能起源于中国的侾傣人,大约在2-3万年前。通过分析线粒体DNA(mtDNA)数据,Jinam等人[10]表明,马来西亚的三个南岛人群约在1-3万年前起源于中国南方。Su等人[11]进行的Y-DNA分析显示,南岛人起源于岛屿东南亚,并从该地区的旧石器时代人群进化而来;然而,这项研究调查的民族群体数量有限,且基因分型分辨率较低。尽管如此,其他研究通过使用传统的遗传年龄估计方法检查母系单倍群(E和B4a1a谱系)声称岛屿东南亚具有旧石器时代起源[12, 13]。Karafet等人[14]基于Y-DNA研究发现,印尼西部人在旧石器时代从东南亚大陆(MSEA)迁移。Trejaut等人[15]还表明,从东南亚大陆到岛屿东南亚和台湾的基因流可能始于旧石器时代,约1.5-1.8万年前。这些早期的遗传学研究表明,南岛人的祖先起源于多个旧石器时代地区,并且没有通过台湾迁移,但这些观点具有争议性,并被语言学和考古学证据所反驳[1,2,3,4],早期的南岛语言和文物在新石器时代出现在台湾。

相比之下,Melton等人[16]研究表明,台湾南岛人的线粒体DNA含有9-bp缺失(8282-8289),这被认为是单倍群B4或B4'5的诊断性突变,暗示早期南岛人起源于中国中部或南部。Yao等人[17]报告称,"8282-8289"缺失在中国北方和南方人群中均有发现,并进一步确认了汉族人群中存在B4和B4a单倍群[18],表明台湾南岛人起源于中国大陆。最近的古基因组研究使我们更好地了解了南岛人的遗传史前历史,特别是对福建[19, 20]和台湾[21, 22]古代个体的测序,为早期南岛人的起源提供了更清晰的图景。

值得注意的是,突变率被假定为恒定的,但实际上可能并非如此[23,24,25]。现代序列的突变率[26](通过人类-黑猩猩分离约600万年前校准)比古代序列[27](通过约4万年前的古人类骨骼测年校准)慢1.6倍(线粒体基因组中每位点每年1.67 × 10−8对比2.67 × 10−8)或在单倍群H谱系中慢1.45倍[24]。Cabrera等人[23]进一步表明存在时间依赖效应,较老时期(约4.0千年前)比较年轻时期(约1.1千年前)计算的突变率慢2.27倍。Nagel等人[25]建议基于古代序列的突变率可能更准确。遗传年龄估计仍然存在争议,而且由于最新研究缺乏最近共同祖先的时间估计,本综述主要依赖于古人类遗骸的位置和AMS C14测年。

南岛人在中国东南沿海(CSEC)早期新石器时代的起源和混合,随后迁徙到台湾,然后到岛屿东南亚,再到大洋洲
母系单倍群R9c1b、E和B4a1a谱系
母系单倍群R9c1b谱系

Wang等人[20]表明,来自福建的Qihe3个体(约11.5千年前)携带母系单倍群R9c1b。R9c1b演化为R9c1b1和R9c1b2,其中R9c1b1谱系在越南和泰国被发现[28, 29],而R9c1b2谱系在现代台湾南岛人和菲律宾人中被发现[7, 21],这表明南岛语族、南亚语族和侾傣语族的祖先在早期新石器时代共享R9c1b谱系。泰国的一个R9c1b2个例与一个菲律宾人共享超变异突变"152",很可能是随岛屿东南亚南岛人引入泰国南部的[28, 30]。重建的线粒体DNA单倍群R9c1b谱系如图1所示。因此,我们推测前南岛人起源于福建(中国东南沿海)的早期新石器时代。

image.png

**重建的线粒体DNA单倍群R9c1b谱系的系统发生树和系统地理分布。**R9c1b在福建的Qihe3个体中被发现,距今约11,500年[20]。其后代单倍群R9c1b1谱系在越南人、泰国人和汉族人中被发现,而R9c1b2谱系则在台湾南岛人和菲律宾南岛人中被发现。这表明南岛语族的祖先可能起源于福建。泰国发现的一例R9c1b2(KX456451)可能来自岛屿东南亚的南岛人[30]。来源:诊断性突变和登录号从GenBank获得。TA代表台湾南岛人

母系单倍群E谱系
Ko等人[21]表明,中国东南沿海(CSEC)的Liangdao1个体(约8.2千年前)属于母系单倍群E/E1,其亚谱系仅在南岛人中发现。他们首次证明原南岛人起源于中国东南沿海,并含有古代中国北方成分。单倍群E和M9a均从单倍群M9演化而来,最可能起源于中国北方[21, 31, 32],并可能将黄河流域的粟米农民与原汉藏-南岛语言联系起来,距今约7-10千年[33]。因此,古代E单倍群携带者可能从中国北方迁移,并将混合的粟米和水稻农业引入到中国东南沿海的海洋原南岛人群中[34, 35],早期南岛人随后带着单倍群E1和E2谱系的后代扩展到台湾[21]。亚单倍群E1a在一个古代台湾南岛人个体(Hanben,约1.5千年前)中被发现[22];E1a1在台湾南岛人、菲律宾人和印尼人中被发现。E1a1a(具有回复突变:T14766C)存在于台湾南岛人和岛屿东南亚的南岛人中。E2仅在台湾南岛人中发现[21],而其后代单倍群E2a在菲律宾和印尼被发现[36, 37]。重建的E谱系系统发生树显示,E谱系及其亚谱系通过台湾从中国东南沿海传播到岛屿东南亚(图2)。在中国大陆84个人群的6,000多个个体样本中未发现任何单倍群E谱系[38],这可能表明所有单倍群E谱系都已从中国大陆迁出,而非迁入中国人群。

image.png

**重建的线粒体DNA单倍群E谱系的系统发生树和系统地理分布。**台湾南岛人(TA)代表了中国大陆E谱系祖先单倍群与岛屿东南亚(ISEA)后代单倍群之间的连接。E的进一步后代单倍群在岛屿东南亚、台湾、马达加斯加、占婆、泰国南部和大洋洲(未显示)中被发现。来源:诊断性突变和登录号从GenBank获得。古DNA和AMS C14测年用星号*标示。Kya:千年前

母系单倍群B4a1a谱系
关于B4a1a谱系,在台湾南岛人的早期线粒体DNA研究中,Trejaut等人[39]建立了B4a1a的系统发生树,并提出南岛人起源于旧石器时代的台湾(约13.2千年前),并从台湾迁徙至波利尼西亚(约9.3千年前),但这些时间点值得商榷。后来,通过完整的线粒体DNA分析,在中国大陆发现了深层次的祖先单倍群,如B4'5、B4、B4a、B4a1[38, 40, 41],填补了它们起源和演化的空白,支持它们起源于中国大陆,然后扩散到台湾[39]、菲律宾[5]、印尼[37]、大洋洲[42],甚至到泰国南部(来自印尼)[30]。值得注意的是,来自中国北方的一个古代个体Tianyuan(约40千年前)属于B4'5,有3个新突变,但没有直接后代[43]。重建的线粒体DNA单倍群B4'5谱系如图3所示。

image.png

**重建的线粒体DNA单倍群B4'5谱系的系统发生树和系统地理分布。**祖先单倍群B4'5、B4、B4a、B4a1在中国大陆被发现,后代单倍群B4a1a在台湾南岛人(TA)、菲律宾和印尼被发现,表明了它们的起源和迁徙。这个泰国个体(OQ731962)可能来自岛屿东南亚的南岛人[30]。来源:诊断性突变和登录号从GenBank获得。

父系单倍群O1a1-B384、O1a2-M110和O2a2b2-N6

根据最近精细化的Y-DNA序列研究数据[44,45,46],台湾南岛人(TA)男性有五个主要的遗传成分。它们是O1a1a1a1-F78和O1a1a1a2-YP4610(约80%),其次是O1a2a1-B392、O1a2a2-F26627和O2a2b2a2b-B451(约20%)。前两个分别在约10千年前、约9.3千年前和约8.5千年前从O1a1a-P203、O1a1a1-F446、O1a1a1a-F140演化而来。Sun等人[45]表明O1a1a-P203演化为O1a1a1-F-446和O1a1a2-F-4084。O1a1a1-F446的后代单倍群O1a1a1a1-P78和O1a1a1a2在台湾南岛人中被发现。O1a1a2-4084在汉族中被发现,而其后代单倍群O1a1a2a1-K644在侗台语族人群中被发现(图4A)。因此,O1a1a-P203是南岛语族、汉族和侗台语族人民的共同祖先单倍群,出现在中国东部沿海地区。第三和第四个单倍群约在15千年前从O1a2-M110演化而来,在台湾南岛人中占主导地位[45]。

image.png

**精细化的(A) O1a1-B384、O1a2-M110和(B) O2a2b2-N6谱系的Y-DNA序列。**这些单倍群的深层祖先可以追溯到约18千年前的中国大陆。台湾南岛人(TA)、汉族和侗台语族人民的祖先在中国东部和东南沿海地区共享一些共同的遗传成分。来源:改编自Wei等人[44]; Sun等人[45]; Yu等人[46]

父系单倍群O2a2b2a2b-B451的祖先单倍群O2a2b2-N6

关于O2a2b2a2b-B451的祖先单倍群O2a2b2-N6(约18千年前)(图4B),Yu等人[46]认为中国北方的粟米农耕社区是南岛人和汉族人共同祖先群体的一部分,因为他们共享O2a2b2-N6。五至七千年后,他们的亚谱系迁徙到长江流域,然后到福建,在那里与台湾南岛人的祖先混合。但作者们没有考虑到台湾南岛人的谷物种植特征是粟米和水稻的混合,起源于山东[47],而非长江流域。最有可能的是,父系单倍群O2a2b2-N6的亚谱系携带者(可能与母系单倍群M9/E一起)从中国北方内陆(河北)迁徙到中国北方沿海(山东),在那里他们种植粟米(9-10千年前),然后也混合了起源于长江三角洲的水稻种植(约8-9千年前),之后直接从山东沿东海岸(绕过长江流域)扩展到福建和台湾,在那里至今仍然实行混合粟米和水稻种植[22, 34, 35]。目前,关于来自南亚语族、马来西亚、印尼和菲律宾人群的父系单倍群[44,45,46]的精细分析或高分辨率(>2.0百万Y-SNPs)[30]数据知之甚少。

全基因组研究

全基因组研究

在一项古基因组研究[20]中,来自中国东南沿海(CSEC)的齐河3号个体(11.5千年前)被认为是前南岛人,可能来自古代东亚南部,与现代南岛人更接近。其他新石器时代CSEC个体,包括齐河2号、梁岛1号、梁岛2号和昙石山(4.2-8.1千年前),在基因上也与南岛人接近[19]。此外,通过双源模型,CSEC的梁岛1号(原南岛;约8.1千年前)的基因构成有约80%的东亚南部沿海祖先(原南岛人)和约20%的东亚北部沿海祖先(来自山东)。现代泰雅族(TA)、京族(南亚语族)和傣族(侗台语族)人民也有与梁岛1号相似比例的基因成分。山东边边个体(约9.5千年前)有与CSEC祖先(约20%)相关的基因成分,表明古代中国北方人与CSEC人之间的基因流动是双向的。古代瓦努阿图核基因组显示与古代CSEC个体和TA有高度基因相似性,这也支持CSEC的南岛祖先起源及其通过台湾向瓦努阿图的扩张[19]。

Wang等人[22]的研究表明,台湾的汉本个体(1.5千年前)有25%的古代中国北方成分,这与两项古DNA研究的结果一致[19, 21],75%具有南岛语族、南亚语族和侗台语族祖先,尽管每个语族的确切比例未知。这些古代TA人的主要单倍群是父系O2a2b2-N6和母系E1a、B4a1a、F3b1和F4b[22],表明中国北部和南部沿海地区人口与现代南岛人口之间有很强的基因联系。因此,我们推测南岛语族、南亚语族和侗台语族的祖先在分离前有共同成分,南亚语族和侗台语族的少量成分流入原南岛人,然后迁徙到台湾。Liu等人[48]证实所有TA群体都有东亚北部(古代中国北方)和东亚南部(CSEC人)祖先。作者[48]还表明,梁岛2号(约7.6千年前)和索港个体(约4.5千年前)在基因上与南部的鲁凯族(TA)更接近,而阿美族或鲁凯族是与岛屿东南亚南岛人最接近的群体。事实上,早期南岛人约4.1千年前离开台湾,阿美族和鲁凯族尚未从南部TA分化出来。

综合来看,这些最近研究之间的良好一致性支持了这样一个模型:前南岛人起源于CSEC,与南亚语族和侗台语族共享一些祖先成分。后来,他们经历了原/早期南岛时期,与古代中国北方人混合,然后迁徙到台湾,再到菲律宾、岛屿东南亚、马达加斯加和大洋洲。此外,现代南岛人从岛屿东南亚扩展到越南(占族人)[49, 50]和泰国南部[30, 49]。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号