Nature Communications | 菜豆在分布范围扩展和驯化过程中泛基因组中基因的适应性丢失

标题:

期刊:

Nature Communications(16.6)

发表单位:

意大利马尔凯理工大学

研究背景:

食用豆类为应对气候变化、生物多样性保护以及可持续农业和健康饮食需求等全球挑战提供了宝贵资源。其中,普通菜豆(Phaseolus vulgaris L.)作为二倍体(2n=2x=22)且主要为自花授粉的一年生豆类作物,在农业中占据重要地位。作为进化模型,菜豆揭示了约15万至20万年前从墨西哥至南美洲的扩张历程,形成了Mesoamerican(中美洲)与Andean(安第斯)山脉两大遗传独特的基因库。先前基于单一基因组的研究已初步揭示其种群结构和适应性状,但泛基因组的详细探索将提供更全面的遗传多样性理解,促进菜豆的进一步改良与利用。

研究材料:

五个高质量菜豆基因组:G19833 v2.1、BAT93、JaloEPP558、MIDAS和G12873。339个低覆盖度的全基因组测序样本:包含10个野生品种、220个驯化品种以及109份温室培育材料。

研究方法:

测序方案:

二代Illumina WGS测序:9~18×/每样。

二代Illumina RNA测序:取G12873和MIDAS的叶片组织进行RNA-seq。

三代ONT测序:G12873(69×)和MIDAS(50×)。

三代PacBio HIFI测序:BAT93(40×)和JaloEEP558(56×)。

 

分析方案:

1.泛基因组构建及功能注释

2.变异检测及PAV检测

3.群体结构分析:PCA分析、进化树构建

4.群体进化分析:Ka/Ks计算、FST分析

5.全基因组关联分析

6.统计分析:方差分析、Fisher检验

主要研究结果:

菜豆泛基因组的特征描述

利用五个高质量基因组和339个样本的WGS数据,构建了大小约770 Mb、包含34,338个预测基因的泛基因组。339个样本的WGS数据揭示了约234 Mb的额外序列(非参考区域,NRRs)和6905个新基因。图1a展示了随着样本基因组的数量增加,泛基因数量逐渐达到饱和点(99%的基因在超过125个样本后保持不变),而核心基因集的大小则逐渐减小。这表明最终的泛基因组几乎包含了菜豆(P. vulgaris)的所有基因。
为了深入探讨菜豆核心基因与PAVs的进化机制,对每个样本中的每个基因进行了Ka/Ks的计算。基于PAVs的频率,作者将基因划分为三个类别:软核心基因(0.90 ≤ 频率 < 1)、附属基因(0.10 ≤ 频率 < 0.90)和稀有基因(频率 < 0.10)。值得注意的是,稀有PAVs的Ka/Ks比率显著高于软核心基因(图1b),这一发现可能揭示了稀有PAVs所处的有效群体规模较小,从而降低了纯化选择的效率,使得这些基因更容易积累非同义突变。这种突变的积累可能又促进了它们在特定环境下的适应度提升。

img1

图1 菜豆泛基因组的特征分析
菜豆的进化轨迹

通过构建邻接(NJ)系统发育树(图2a)与基于PAVs的主成分分析(PCA,图2b),全面揭示了菜豆的三个生态地理基因库特征及其内部遗传结构。NJ树与PCA结果均强有力地确认了Mesoamerican(M)、Andean(A)及秘鲁/厄瓜多尔北部(PhI)种群的存在,并进一步将M1种群细分为A、B两个显著不同的集群。针对M1的方差分析表明,M1-A与M1-B在开花时间上存在显著差异(图2c),这一发现凸显了遗传多样性与关键适应性状之间的紧密联系。

在考察各亚群PAVs总数时,作者发现野生种较栽培种具有更多的PAV数目和更高的遗传多样性,这支持驯化过程中遗传多样性减少的观点。此外,M1和A2比其他驯化的亚群拥有更多的PAVs,这表明,M1与A2可能为该地区最早驯化的种群,其后衍生出其他亚群(图2d)。

 

img2

图2 菜豆的群体结构

为了研究PAVs对重要性状(开花时间)变异的影响,作者对218份美洲和欧洲菜豆的开花时间进行PAV-GWAS分析,结果表明35个候选PAVs与开花时间和光周期敏感性的显著关联。特别地,Phvul.003G185200的PAV与早花表型相关(图3a),该PAV与拟南芥中的HDA5基因同源,后者编码一种脱乙酰酶。值得注意的是,拟南芥中HDA5表达模式受损的突变体表现出晚花表型,这是由于两个花抑制基因FLCMAF1的上调所致。与菜豆中携带该基因的品种相比,缺乏Phvul.003G185200品种表现出早花表型(图3b)。此外,Phvul.003G185200在所有Mesoamerican种群中均存在,而在Andean基因池中的存在率仅为18%(图3c)。Phvul.003G185200在Mesoamerican和Andean基因池中的不同分布可能表明其在种群分化过程的丢失与适应性反应相关。此外,GWAS分析的候选PAVs中近半数位于NRR区域,凸显了泛基因组在解析重要经济性状变异中的关键作用。

 

img3

图3:Phvul.003G185200的案例研究

野生扩张到南美洲时泛基因组收缩

作者观察到最显著的研究结果之一是Mesoamerican与Andean基因库间泛基因组大小的差异(图4a)。通过计算每个个体的PAVs总数,研究发现来自同一基因库的样本各自聚集成独立组群(图4a)。具体而言,Mesoamerican种群每个个体所含PAVs数量显著高于Andean基因库种群(图4b, c及补充表6)。这一泛基因组大小的减少可能反映了遗传漂变,以及Andean种群特有的两次连续瓶颈效应。

 

img4

图4 菜豆泛基因组的进化
为了更好地理解不同进化力量在形成Mesoamerican与Andean基因库中PAVs的作用,对拉丁美洲不同纬度的野生基因型进行了分析,作者发现PAVs数量与纬度之间存在显著相关性(p < 0.0001)。通过方差分析和空间插值,揭示了从北墨西哥到西北阿根廷的基因逐渐减少的趋势(图5a, b)。通过FST分析比较Mesoamerican和Andean野生种群的PAVs,作者发现,在FST分布的前5%中,有64%的PAVs在野生Andean基因库中缺失,这个缺失率高于整个可变基因组的25%(图5c),表明野生种群扩展过程中选择性基因丢失的发生率超过了随机事件,强烈表明基因丢失是选择性压力的结果。功能注释分析显示,这些受到选择的PAVs富含与花粉萌发、先天免疫、非生物胁迫耐受及根毛生长等关键生物过程相关的基因,预示着它们在野生种群扩张过程中可能扮演了重要的适应性角色。

img5

图5 野生菜豆扩展过程中适应性基因丢失的选择

驯化过程中基因丢失的选择痕迹

通过FST分析,作者深入探究了野生种群与驯化种群中候选PAVs的变化情况。结果显示,在Mesoamerican和Andean两大基因库的驯化过程中,分别有72%和80%的候选PAVs在驯化种群中的出现频率显著低于其在野生种群中的频(图6a, b),这表明驯化选择导致了基因存在的减少,但与野生种群范围扩张不同,驯化过程中未发现完全基因丢失的证据,这可能与不同的进化时间尺度有关。

img6

 

图6 菜豆驯化过程中的适应性减少效应