发明内容
本发明旨在提供一种地方鹅T2T基因组组装方法,而组装完成的鹅T2T染色体水平基因组对未来鹅的遗传改良和遗传机制解析奠定了重要研究基础。
本发明提供了一种地方鹅T2T基因组组装方法,包括以下步骤:
步骤1:样品采集和测序
(1)采集太湖鹅保种群中一只成年雌性太湖鹅,收集翅静脉血液,胸肌和六种器官组织样本。随后进行样本DNA和RNA的提取。
(2)DNA文库构建和测序,将步骤(1)中提取的血液样本,利用三代长读长测序和二代测序相结合获得基因组完整片段。
(3)Hi-C测序文库构建和测序,将步骤(1)中胸肌组织在甲醛溶液中进行交联反应,以供Hi-C建库测序。
(4)RNA文库构建和测序,将步骤(1)中六种组织进行二代转录组测序,为提高基因注释准确性,将六种组织等量混合,进行三代全长转录组测序。
步骤2:基因组序列图谱构建
(1)利用K-mer法基于二代短片测序数据对太湖鹅基因组大小进行了评估。
(2)通过联合Hifiasm(v 0.18.5)和NextDenovo (v2.4.0)软件进行基因组组装。
(3)使用quarTeT软件,对组装的scaffold序列进行了缺口填补。
(4)使用BUSCO(v 5.4.5)调用metaeuk (v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。
(5)使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。
(6)在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。
(7)为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。
优选的,步骤1中所述的六种器官组织样本包括脑、心脏、肝脏、脾脏、肺、肾脏。
优选的,步骤1中所述的样本DNA通过根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。
优选的,步骤1中所述的DNA文库构建和测序,包括采用三代超长测序,HiFi测序和二代短片测序基因文库构建。
优选的,步骤1中所述的Hi-C测序文库构建和测序流程包括裂解液重新重悬球团,并使用NEB缓冲液对细胞重悬。随后用稀SDS裂解液对细胞核进行溶解,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4 DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在IlluminaHiseq平台上进行了双端150bp测序。
优选的,步骤1中所述的RNA文库构建和测序,使用EasyPure RNA Kit (Transgen)从器官组织中分离出总RNA。随后,采用NEBNext® UltraTM RNA Library Prep Kit forIllumina®(NEB, lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在IlluminaHiSeq Xten平台上进行了双端(2×125bp)测序。针对混合样本的全长转录本文库构建和测序,采用Pacbio Sequel系统(Pacific Biosciences, CA, USA)进行全长转录本测序。
优选的,步骤2中所述的基因组大小评估,通过双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用 GenomeScope(v 2.0)根据K-mer分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。
优选的,步骤2中所述的基因组组装,首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。优选的,步骤2中所述的补空缺,在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。
本发明有以下有益效果:
(1)填补了现有鹅参考基因组中大部分染色体上的空白区域,其中33条常染色体达到了完全无间隙的水平,为鹅的遗传研究提供了更全面的基因组参考。
(2)成功组装了高质量的鹅基因组序列,包括常染色体和性染色体,为研究鹅的性别决定和生殖机制提供了重要的基础。
(3)通过对基因组的注释,识别出大量的基因和mRNA,为研究鹅的生物学特征、生长和发育过程以及疾病抵抗能力等方面提供了重要的资源。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本发明一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
一种地方鹅T2T基因组组装方法,包括以下步骤:
步骤1:样品采集和测序
采集太湖鹅保种群中一只成年雌性太湖鹅,收集翅静脉血液,胸肌和脑、心脏、肝脏、脾脏、肺、肾脏组织样本。随后进行样本DNA和RNA的提取。样本DNA通过根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。
DNA文库构建和测序采用三代超长测序,HiFi测序和二代短片测序基因文库构建。将提取的血液样本,利用三代长读长测序和二代测序相结合获得基因组完整片段。
将胸肌组织在甲醛溶液中进行交联反应,以供Hi-C建库测序。
Hi-C测序文库构建和测序流程包括裂解液重新重悬球团,并使用NEB缓冲液对细胞重悬。随后用稀SDS裂解液对细胞核进行溶解,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在Illumina Hiseq平台上进行了双端150bp测序。
将六种组织进行二代转录组测序,为提高基因注释准确性,将六种组织等量混合,进行三代全长转录组测序。使用EasyPure RNA Kit (Transgen)从器官组织中分离出总RNA。随后,采用NEBNext® UltraTM RNA Library Prep Kit for Illumina®(NEB,lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在Illumina HiSeq Xten平台上进行了双端(2×125bp)测序。针对混合样本的全长转录本文库构建和测序,采用PacbioSequel系统(Pacific Biosciences, CA, USA)进行全长转录本测序。
步骤2:基因组序列图谱构建
利用K-mer法基于二代短片测序数据对太湖鹅基因组大小进行了评估。通过双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用GenomeScope(v 2.0)根据K-mer 分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。
通过联合Hifiasm(v 0.18.5)和NextDenovo(v2.4.0)软件进行基因组组装。首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。
使用quarTeT软件,对组装的scaffold序列进行了缺口填补。在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。
使用BUSCO(v 5.4.5)调用metaeuk(v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。
使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。
在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。
为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。
实施例1一种地方鹅T2T基因组组装方法
1. 样本采集和测序
1.1样本DNA和RNA的采集和提取
研究样本选自国家水禽基因库(江苏)太湖鹅保种群中一只成年雌性太湖鹅(图1A)。鹅基因组组装所采用的策略如图 1B所示。在屠宰前,我们使用5ml抗凝采血管(BDVacutainer ® EDTA)从翅静脉中抽取样本血液,随后提取其中的DNA进行后续测序分析。为了获得基因组片段的完整片段,我们采用了三代长读长测序和二代测序相结合的技术方法。此外,把样本胸肌组织切成小块,并置于甲醛溶液中进行交联反应,以供Hi-C建库测序使用。同时,采集了样本脑、心脏、肝脏、脾脏、肺、肾脏六种组织,并将其分别切割成小块,装入1.8ml冻存管(Nunc CryoTube)中,然后迅速冷冻于液氮罐中,并暂存于-80℃超低温冰箱(Hair DW-86L728J),以进行二代转录组测序。此外,为提高基因注释的准确性,将采集的六种组织样本按等量混合,以进行三代全长转录组测序。所有上述采样实验操作均符合江苏农牧科技职业学院动物福利委员会的规章要求(动物伦理批号22110313195050999)。
样本DNA提取过程严格遵循天根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)的操作说明。DNA提取后,使用Nanodrop 2000分光光度计对DNA进行质量检测。样本DNA质量合格参数设置为:OD值(260/280)在1.8-2.0之间,并且浓度大于100ng/μl。最后,利用用配好的2%琼脂糖凝胶进行电泳,将通过DNA条带检测合格的样本DNA置于-80℃冰箱(Hair DW-86L728J)中保存。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。RNA提取后,对RNA进行浓度和纯度测定。检测合格后,将样本RNA置于-80℃冰箱(Hair DW-86L728J)中储存。
1.2 DNA文库构建和测序
样本基因组三代超长测序,遵循了Oxford Nanopore Technologies (ONT)公司提供的标准protocol。首先,使用Megaruptor (Diagenode, USA)对基因组DNA随机切割。随后,采用Nanopore SQK-LSK 109 (Oxford Nanopore technologies, USA)套件进行适配器制备和连接,并对连接好的DNA文库再次进行Qubit 3.0 Fluorometer检测。最后,将样本加载到Nanopore Flow cells R9.4上,在PromethION平台上进行测序。最终的测序结果统计见表1,共得到577,228条reads,总碱基数量达到52,490,712,237bp,reads的平均长度为90,935.9bp,N50长度为100,823bp,GC含量为42.82%。
样本的HiFi测序采用了PacBio单分子实时循环一致测序(CCS)文库制备方法。首先,使用Covaris g-TUBEs (Covaris) 将总共100μg高质量基因组DNA进行剪切,以获得目标大小约为20kb的片段。随后,使用Agilent 2100 Bioanalyzer DNA 12000芯片(AgilentTechnologies)对剪切后的基因组DNA进行大小分布检测,确保其符合要求。接下来,采用PacBio DNA模板制备套件2.0(Pacific Biosciences of California, Inc.,CA)构建测序文库,以在PacBio RS II机器(Pacific Bioscences of California, Inc.)上进行HiFi测序。最后,将构建好的文库加载至一个SMRT CELL上进行测序。最终共获得了4,261,430条reads测序数据(表1),总碱基数达到71,413,769,333bp,reads的平均长度为16,758bp,N50长度为16,838bp,GC含量为42.61%。
样本的二代短片段测序基因组文库构建过程如下:首先,使用Covaris超声仪(Covaris, USA)对高质量的基因组DNA进行随机切割。然后,采用Truseq nano DNA HT文库制备试剂盒(Illumina, USA)构建Illumina测序文库,目标插入大小为350bp。最后,将纯化处理的文库加载到Illumina NovaSeq 6000平台上进行测序。在测序完成后,共获得了385,826,042条序列,总计57,873,906,300bp的测序数据,GC含量为43.51%。
1.3 Hi-C测序文库构建和测序
样本的Hi-C测序文库的构建和测序基于标准流程,并进行了一些修改。首先,使用4%甲醛溶液对胸肌组织进行室温下交联处理。随后,取20μl裂解缓冲液将球团重新重悬,并使用100μl NEB缓冲液对细胞核进行重悬。接下来,采用稀SDS裂解液对细胞核进行溶解。然后,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4 DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在Illumina Hiseq平台上进行了双端150bp测序。测序结果如表1所示:共获得了1,075,285,592条reads,总碱基数据量达到161,292,838,800bp,reads的平均长度为90,935.80bp,N50长度为100,823bp,GC含量平均为42.82%。
1.4 RNA文库构建和测序
对于6个样本的RNA测序文库构建和测序,首先,使用EasyPure RNA Kit(Transgen)从脑、心脏、肝脏、脾脏、肺、胸肌组织分别中分离出总RNA。随后,采用NEBNext®UltraTM RNA Library Prep Kit for Illumina®(NEB, lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在Illumina HiSeq Xten平台上进行了双端(2×125bp)测序。具体的测序结果请参见表1。其中,心脏组织测序获得reads数量最高,达到45,882,692条,而脾脏组织获得的reads数量最低,为38,462,044条。六个组织平均总reads数据量为6,393,354,550bp,GC含量为46.04%。
针对混合样本的全长转录本文库构建和测序,采用Pacbio Sequel系统(PacificBiosciences, CA, USA)进行全长转录本测序。根据Isoform Sequencing (Iso-Seq)协议,首先使用NEBNext Single Cell/Low Input cDNA Synthesis&Amplification Module对样品进行cDNA合成和扩增。然后,使用PacBio SMRTbell Express Template Prep Kit 2.0对样品进行处理,包括连接适配器和添加SMRTbell序列。接下来,通过ProNex® Size-Selective Purification System进行大小选择纯化,去除低质量和短片段的序列,以完成Iso-Seq文库制备。最后,在Sequel Sequel System (Pacific Biosciences)上进行全长转录本测序,以获取高质量的全长转录本序列信息。总计获得48,373,842条reads,总数据量达到84,725,302,734bp, 平均reads长度为1,751.50bp,N50长度为2,447bp,GC含量为46.05%。
2. 基因组序列图谱构建
2.1基因组大小评估
本研究利用K-mer法基于二代短片段测序数据对太湖鹅基因组大小进行了评估。通过对双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用 GenomeScope(v 2.0)根据K-mer 分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。在图1C 中,蓝色线表示实际观测到的太湖鹅基因组测序序列中K-mer的分布情况。同时,棕色线表示由于测序错误引起的序列中的K-mer,由于测序错误是随机的,这些K-mer通常具有较低的频数。最终,GenomeScope根据这些信息进行建模,并估计太湖鹅基因组的长度约为1.12Gb,基因组杂合度约为0.5%。基于基因组从头拼接结果显示,太湖鹅属于高杂合度基因组。
2.2基因组组装
本研究联合Hifiasm(v 0.18.5)和NextDenovo(v2.4.0)软件进行组装。使用Hifiasm软件进行基因组组装。首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。组装结果见表2,其中,NextDenovo的组装效果最佳,具有contigs 244条,N50长度为33,928,929bp,被选择进行下游分析。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。具体操作包括使用meryl软件(v 1.4)统计kmer出现的次数,利用winnowmap软件(v 2.03)将组装好的基因组与Hifi数据进行重新比对,再经过falconc软件(v 1.15.0)进行二次过滤和删除嵌合比对片段。最后,使用racon软件(v1.5.0)进行三轮纠错,得到经过HiFi纠错后的基因组组装序列。接下来,运用Chromap软件(v 0.2.5)和yahs(v 1.2a.1)软件套件,结合Hi-C数据,对基因组进行高质量组装,获得完整的scaffold序列。为了标识和比对组装好的scaffold序列,将其与已知的狮头鹅基因组(GCA_025388735.1)进行比对分析,通过比对,确定了scaffold序列与狮头鹅基因组中各染色体的对应关系,并根据匹配的1-38号常染色体和Z染色体进行了重新命名。
为了获得较为完整的鹅W染色体序列信息,我们又进行了W染色体辅助组装工作。在已发布的鹅基因组版本中,由于缺乏W染色体的序列信息。为此,以鹅的近缘物种——鸭的基因组为参考,利用ragtag.py软件(v2.1.0)的"scaffold"模块,将尚未拼接的scaffolds拼贴成鹅的W染色体。通过这一策略,我们成功地组装出了一条长度为17.35Mb的W染色体。W染色体由18条scaffolds共同组成,其中scaffold_42是W染色体的主要部分,占据了全长的9.63%。最终我们成功组装出了38条常染色体和W、Z两条性染色体,是目前最完整的鹅基因组(图2)。需要强调的是,由于性染色体结构的复杂性,性染色体的组装难度远高于常染色体。因此,我们采用了辅助组装的方法,并借助鸭W染色体基因组的相关信息,才能获得较为完整的鹅W染色体序列。这项工作对于进一步研究鹅的性别决定机制和遗传特性具有重要的学术价值。
2.3补空缺
使用quarTeT软件(v 1.1.3)对组装的scaffold序列进行了缺口填补。在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。该工具利用四分体比对信息来填补缺口,并借助其他相关已知基因组信息提高填补的准确性。经过缺口填补后,除了两条性染色体上存在少量缺口外,我们成功将33条常染色体完全闭合。图2展示了缺口在各染色体上的分布情况。
2.4基因组完整性评估
使用BUSCO(v 5.4.5)(Seppey et al., 2019)调用metaeuk(v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。根据比对结果的统计,确定了在组装的基因组中存在单拷贝基因(S)和多拷贝基因(D)的情况。其中,96.5%的单拷贝基因能够完整比对到基因组上,0.4%的多拷贝基因完整存在于基因组中。此外,我们还使用Quast(v 5.2.0)软件对基因组的关键指标进行了评估。结果显示,太湖鹅基因组大小为1,197,991,206bp,scaffold N50达到81,007,908bp。与已发布的染色体水平鹅基因组相比,我们组装结果中的scaffolds数量明显最少,仅有73条。值得注意的是,本次组装的scaffold N50长度超过了80M,这一结果明显优于先前的基因组版本。详细比较结果如表3所示。
2.5基因注释
使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。根据结果统计(见表 4),在已注释的重复序列中,散在重复序列占整个鹅基因组全长的 8.92 %,总长度约为106.89Mb。其中,约77.17Mb(6.44%)为逆转录因子,而3.66Mb为DNA转座子。此外,太湖鹅基因组上中约有4.87%的序列属于长散在重复序列(Long interspersed nuclearelements, LINEs),这是基因组中所比重最大的重复序列种类。值得注意的是,其中鸟类逆转座子CR1(Chicken repeat 1)的丰度最高,几乎占所有LINEs 的100 %。此外,1.49%的太湖鹅基因组序列属于长末端重复序列(long terminal repeats, LTR),而0.08 %属于短散在重复序列(Small interspersed nuclear elements, SINEs)。在进行重复序列屏蔽后,我们使用Liftoff软件(v 1.6.3)参考NCBI goose genome (GCF_002166845.1)及其注释信息以及转录组数据集,对太湖鹅基因组进行了编码基因和mRNA注释,注释结果显示,共注释到34898个基因和62248个mRNA。
2.6端粒和着丝粒鉴定
在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,我们将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。结果显示,位于3号染色体两端末端10000bp窗口内有最多的端粒重复序列,分别有1101和1793个,具体的端粒分布示意图可见图3。对于着丝点的鉴定,我们采用了centromics软件((https://github.com/ShuaiNIEgithub/Centromics)),并利用ont和hifi数据集以及Hi-C数据对已组装的基因组进行着丝粒鉴定。根据结果中Hic和TR-CL2(长度测序捕获染色体构象的固定)数据的峰值,确定染色体上着丝粒的位置。着丝粒的位置已在染色体模式图中标注出来(图3)。
2.7物种间基因组共线性
为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,我们使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。如图4所示,大部分鸭的长片段染色体(1-9号染色体)在鹅基因组中都能找到相应一一对应的染色体,尤其是在Z和W染色体上具有高度的相似性。这与鸭、鹅作为水禽具有相似的生活习性和分类学归属相符合。然而,与鹅相比,鸡的基因组与鹅基因组在线性比对结果中仅有少部分区域具有一致性。尽管鸡和鹅都属于家禽类群,但它们在生活习性和进化关系上存在显著差异。这表明鸭与鹅之间具有更近的亲缘关系。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。