Movatterモバイル変換


[0]ホーム

URL:


CN117802091A - 一种地方鹅t2t基因组组装方法 - Google Patents

一种地方鹅t2t基因组组装方法
Download PDF

Info

Publication number
CN117802091A
CN117802091ACN202311854898.4ACN202311854898ACN117802091ACN 117802091 ACN117802091 ACN 117802091ACN 202311854898 ACN202311854898 ACN 202311854898ACN 117802091 ACN117802091 ACN 117802091A
Authority
CN
China
Prior art keywords
sequencing
genome
goose
data
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311854898.4A
Other languages
English (en)
Inventor
王健
孟和
赵洪昌
周浩
孙国波
董飚
朱文奇
穆晓恵
李晓鸣
王军
赵孟丽
杨文豪
张干生
纪荣超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taizhou Fengda Agriculture And Animal Husbandry Technology Co ltd
Jiangsu Agri Animal Husbandry Vocational College
Original Assignee
Taizhou Fengda Agriculture And Animal Husbandry Technology Co ltd
Jiangsu Agri Animal Husbandry Vocational College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taizhou Fengda Agriculture And Animal Husbandry Technology Co ltd, Jiangsu Agri Animal Husbandry Vocational CollegefiledCriticalTaizhou Fengda Agriculture And Animal Husbandry Technology Co ltd
Priority to CN202311854898.4ApriorityCriticalpatent/CN117802091A/zh
Publication of CN117802091ApublicationCriticalpatent/CN117802091A/zh
Pendinglegal-statusCriticalCurrent

Links

Classifications

Landscapes

Abstract

本发明涉及生物科学领域,具体来说,涉及一种使用多种测序技术手段组装高质量鹅基因组序列的方法。该方法采用太平洋生物科学(PacBio)HiFi读取、Ont纳米孔超长读取、Illumina短读取以及染色质构想捕获(Hi‑C)多种测序技术手段,成功组装了高质量的鹅基因组序列。组装完成的鹅T2T染色体水平基因组对未来鹅的遗传改良和遗传机制解析奠定了重要研究基础。

Description

一种地方鹅T2T基因组组装方法
技术领域
本发明涉及分子标记技术领域,具体涉及地方鹅T2T基因组组装方法。
背景技术
家鹅(Anser cygnoides domesticus)是一种重要的农业家禽,其肉用、蛋用和观赏等多种用途使其成为广泛饲养的物种。约在6000多年前,鹅与鸡、鸭一同被驯化,成为最早被人类驯养的家禽之一。鹅具有快速生长、强大的抗病能力和高度发达的肝脂储存特性,且适应于粗饲料的饲养环境。相较于其他陆生家禽(如鸡),鹅具备独特的生物学特征,例如,对某些禽类病毒的低感受性,尽管可能作为病毒携带者存在,但很少表现出感染症状,从而成为禽类病毒的天然储存库。此外,鹅肝脏的高度脂肪积累能力以及不易发生肝纤维或坏死的特点,提示其具有独特的脂质储存和代谢特性,对于人类脂质代谢紊乱的研究提供重要参考。随着基因组学研究的发展,对家鹅基因组的组装和解析成为深入了解其遗传特性和生物学功能的重要途径。在过去的几年中,鹅基因组测序的进展使得我们能够更全面地探索其基因组结构和功能。
Lu等人在2015年首次对鹅的基因组进行了测序和分析(Lu et al. 2015),使用第二代测序数据,并借助SOAPdenovo 软件(Li R et al,. 2010)进行组装,获得了1.12 Gb的鹅基因组草图。该基因组草图包含了1,049条Scaffolds序列,其中Scaffold N50达到了5.2 Mb。随后,Gao 等人于2016年公布了一只雌性四川白鹅的基因组序列图谱。通过对家鹅的祖先鸿雁(Anser cygnoides)进行基因重测序,发现两者在3.4-6.3百万年前分化出来(Gao et al,. 2016)。另外,在2020年,鹅的染色体水平基因组也被发布。研究者发表了一个1.11Gb大小的天府鹅基因组,其Contig N50和Scaffold N50值分别为1.85Mb和33.12Mb。该基因组组装包含39条伪染色体(2n=78),占鹅全基因组大小的约88.36%(Li et al.,2020)。近两年来,还陆续发布了兴国灰鹅(Ouyang et al., 2022)、狮头鹅(Zhao et al.,2023)等高质量的染色体水平参考基因组,为促进鹅的育种和生物学研究提供了宝贵的遗传资源和数据基础。
然而,由于过去技术的限制,现有鹅基因组中仍存在大量缺失区域,主要涉及着丝粒、端粒和其他高度重复的区域,这些区域中包含了许多重要遗传信息。端粒是染色体末端的高度重复DNA序列,能够保护染色体免受退化的影响(Shay et al., 2019)。着丝粒是另一个独特的染色体结构域,作为染色体分离时着丝点的装配位点(Wu et al., 2011)。着丝粒DNA序列通常由卫星DNA组成,代表了真核基因组中进化最快的序列(Francesca.,2022)。随着测序技术的发展,超长牛津纳米孔技术(ONT)和太平洋生物科学公司(PacBio)的高覆盖深度(HiFi)数据被广泛应用于填补动植物基因组的空白。通过整合第三代DNA测序技术和第二代Hi-C数据,可以实现完整、无缺口的鹅基因组组装。近期,家鸡的T2T基因组已经发布,填补了先前基因组的大部分空白,并揭示了鸡端粒和着丝粒的结构特征(Huanget al., 2023)。然而,尚未有报道关于鹅无缺口参考基因组的完成。在本研究中,我们首次组装了无缺口的家鹅基因组,采用多种组装策略,利用高覆盖率和准确的长读序列数据。该组装首次揭示了鹅高度重复区域(着丝粒和端粒)的结构特征,为更好地解析鹅基因组的结构特征和功能提供了基础。
发明内容
本发明旨在提供一种地方鹅T2T基因组组装方法,而组装完成的鹅T2T染色体水平基因组对未来鹅的遗传改良和遗传机制解析奠定了重要研究基础。
本发明提供了一种地方鹅T2T基因组组装方法,包括以下步骤:
步骤1:样品采集和测序
(1)采集太湖鹅保种群中一只成年雌性太湖鹅,收集翅静脉血液,胸肌和六种器官组织样本。随后进行样本DNA和RNA的提取。
(2)DNA文库构建和测序,将步骤(1)中提取的血液样本,利用三代长读长测序和二代测序相结合获得基因组完整片段。
(3)Hi-C测序文库构建和测序,将步骤(1)中胸肌组织在甲醛溶液中进行交联反应,以供Hi-C建库测序。
(4)RNA文库构建和测序,将步骤(1)中六种组织进行二代转录组测序,为提高基因注释准确性,将六种组织等量混合,进行三代全长转录组测序。
步骤2:基因组序列图谱构建
(1)利用K-mer法基于二代短片测序数据对太湖鹅基因组大小进行了评估。
(2)通过联合Hifiasm(v 0.18.5)和NextDenovo (v2.4.0)软件进行基因组组装。
(3)使用quarTeT软件,对组装的scaffold序列进行了缺口填补。
(4)使用BUSCO(v 5.4.5)调用metaeuk (v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。
(5)使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。
(6)在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。
(7)为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。
优选的,步骤1中所述的六种器官组织样本包括脑、心脏、肝脏、脾脏、肺、肾脏。
优选的,步骤1中所述的样本DNA通过根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。
优选的,步骤1中所述的DNA文库构建和测序,包括采用三代超长测序,HiFi测序和二代短片测序基因文库构建。
优选的,步骤1中所述的Hi-C测序文库构建和测序流程包括裂解液重新重悬球团,并使用NEB缓冲液对细胞重悬。随后用稀SDS裂解液对细胞核进行溶解,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4 DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在IlluminaHiseq平台上进行了双端150bp测序。
优选的,步骤1中所述的RNA文库构建和测序,使用EasyPure RNA Kit (Transgen)从器官组织中分离出总RNA。随后,采用NEBNext® UltraTM RNA Library Prep Kit forIllumina®(NEB, lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在IlluminaHiSeq Xten平台上进行了双端(2×125bp)测序。针对混合样本的全长转录本文库构建和测序,采用Pacbio Sequel系统(Pacific Biosciences, CA, USA)进行全长转录本测序。
优选的,步骤2中所述的基因组大小评估,通过双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用 GenomeScope(v 2.0)根据K-mer分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。
优选的,步骤2中所述的基因组组装,首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。优选的,步骤2中所述的补空缺,在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。
本发明有以下有益效果:
(1)填补了现有鹅参考基因组中大部分染色体上的空白区域,其中33条常染色体达到了完全无间隙的水平,为鹅的遗传研究提供了更全面的基因组参考。
(2)成功组装了高质量的鹅基因组序列,包括常染色体和性染色体,为研究鹅的性别决定和生殖机制提供了重要的基础。
(3)通过对基因组的注释,识别出大量的基因和mRNA,为研究鹅的生物学特征、生长和发育过程以及疾病抵抗能力等方面提供了重要的资源。
附图说明
图1为实施例1的样本照片和基因组质量评估图表:(A)太湖鹅形态学照片;(B)基因组大小估计基因组Scope2;(C)太湖鹅全基因组Hi-C热图;
图2为实施例1的太湖鹅41条染色体基因组组装的circos图:环从外到内表示(a)太湖鹅基因组染色体,(b)GC密度,(c)外显子密度,(d)CDS密度,(e)lncRNA密度,(f)mRNA密度,(g)基因密度,b-g为100kb;最内层的圆是不同染色体上同源基因的共线图;
图3为实施例1的组装鹅基因组的着丝粒、端粒和间隙分布图,染色体热图表示基因密度,波浪线表示重复区域的密度;
图4为实施例1的鹅染色体与鸭和鸡基因组的全基因组比对。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本发明一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
一种地方鹅T2T基因组组装方法,包括以下步骤:
步骤1:样品采集和测序
采集太湖鹅保种群中一只成年雌性太湖鹅,收集翅静脉血液,胸肌和脑、心脏、肝脏、脾脏、肺、肾脏组织样本。随后进行样本DNA和RNA的提取。样本DNA通过根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。
DNA文库构建和测序采用三代超长测序,HiFi测序和二代短片测序基因文库构建。将提取的血液样本,利用三代长读长测序和二代测序相结合获得基因组完整片段。
将胸肌组织在甲醛溶液中进行交联反应,以供Hi-C建库测序。
Hi-C测序文库构建和测序流程包括裂解液重新重悬球团,并使用NEB缓冲液对细胞重悬。随后用稀SDS裂解液对细胞核进行溶解,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在Illumina Hiseq平台上进行了双端150bp测序。
将六种组织进行二代转录组测序,为提高基因注释准确性,将六种组织等量混合,进行三代全长转录组测序。使用EasyPure RNA Kit (Transgen)从器官组织中分离出总RNA。随后,采用NEBNext® UltraTM RNA Library Prep Kit for Illumina®(NEB,lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在Illumina HiSeq Xten平台上进行了双端(2×125bp)测序。针对混合样本的全长转录本文库构建和测序,采用PacbioSequel系统(Pacific Biosciences, CA, USA)进行全长转录本测序。
步骤2:基因组序列图谱构建
利用K-mer法基于二代短片测序数据对太湖鹅基因组大小进行了评估。通过双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用GenomeScope(v 2.0)根据K-mer 分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。
通过联合Hifiasm(v 0.18.5)和NextDenovo(v2.4.0)软件进行基因组组装。首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。
使用quarTeT软件,对组装的scaffold序列进行了缺口填补。在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。
使用BUSCO(v 5.4.5)调用metaeuk(v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。
使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。
在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。
为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。
实施例1一种地方鹅T2T基因组组装方法
1. 样本采集和测序
1.1样本DNA和RNA的采集和提取
研究样本选自国家水禽基因库(江苏)太湖鹅保种群中一只成年雌性太湖鹅(图1A)。鹅基因组组装所采用的策略如图 1B所示。在屠宰前,我们使用5ml抗凝采血管(BDVacutainer ® EDTA)从翅静脉中抽取样本血液,随后提取其中的DNA进行后续测序分析。为了获得基因组片段的完整片段,我们采用了三代长读长测序和二代测序相结合的技术方法。此外,把样本胸肌组织切成小块,并置于甲醛溶液中进行交联反应,以供Hi-C建库测序使用。同时,采集了样本脑、心脏、肝脏、脾脏、肺、肾脏六种组织,并将其分别切割成小块,装入1.8ml冻存管(Nunc CryoTube)中,然后迅速冷冻于液氮罐中,并暂存于-80℃超低温冰箱(Hair DW-86L728J),以进行二代转录组测序。此外,为提高基因注释的准确性,将采集的六种组织样本按等量混合,以进行三代全长转录组测序。所有上述采样实验操作均符合江苏农牧科技职业学院动物福利委员会的规章要求(动物伦理批号22110313195050999)。
样本DNA提取过程严格遵循天根血液/细胞/组织基因组DNA提取试剂盒(TIANGEN®DP304)的操作说明。DNA提取后,使用Nanodrop 2000分光光度计对DNA进行质量检测。样本DNA质量合格参数设置为:OD值(260/280)在1.8-2.0之间,并且浓度大于100ng/μl。最后,利用用配好的2%琼脂糖凝胶进行电泳,将通过DNA条带检测合格的样本DNA置于-80℃冰箱(Hair DW-86L728J)中保存。样本组织的总RNA提取过程严格按照天根TRNzol Universal总RNA提取试剂盒(TIANGEN®DP424)的使用说明书进行操作。RNA提取后,对RNA进行浓度和纯度测定。检测合格后,将样本RNA置于-80℃冰箱(Hair DW-86L728J)中储存。
1.2 DNA文库构建和测序
样本基因组三代超长测序,遵循了Oxford Nanopore Technologies (ONT)公司提供的标准protocol。首先,使用Megaruptor (Diagenode, USA)对基因组DNA随机切割。随后,采用Nanopore SQK-LSK 109 (Oxford Nanopore technologies, USA)套件进行适配器制备和连接,并对连接好的DNA文库再次进行Qubit 3.0 Fluorometer检测。最后,将样本加载到Nanopore Flow cells R9.4上,在PromethION平台上进行测序。最终的测序结果统计见表1,共得到577,228条reads,总碱基数量达到52,490,712,237bp,reads的平均长度为90,935.9bp,N50长度为100,823bp,GC含量为42.82%。
样本的HiFi测序采用了PacBio单分子实时循环一致测序(CCS)文库制备方法。首先,使用Covaris g-TUBEs (Covaris) 将总共100μg高质量基因组DNA进行剪切,以获得目标大小约为20kb的片段。随后,使用Agilent 2100 Bioanalyzer DNA 12000芯片(AgilentTechnologies)对剪切后的基因组DNA进行大小分布检测,确保其符合要求。接下来,采用PacBio DNA模板制备套件2.0(Pacific Biosciences of California, Inc.,CA)构建测序文库,以在PacBio RS II机器(Pacific Bioscences of California, Inc.)上进行HiFi测序。最后,将构建好的文库加载至一个SMRT CELL上进行测序。最终共获得了4,261,430条reads测序数据(表1),总碱基数达到71,413,769,333bp,reads的平均长度为16,758bp,N50长度为16,838bp,GC含量为42.61%。
样本的二代短片段测序基因组文库构建过程如下:首先,使用Covaris超声仪(Covaris, USA)对高质量的基因组DNA进行随机切割。然后,采用Truseq nano DNA HT文库制备试剂盒(Illumina, USA)构建Illumina测序文库,目标插入大小为350bp。最后,将纯化处理的文库加载到Illumina NovaSeq 6000平台上进行测序。在测序完成后,共获得了385,826,042条序列,总计57,873,906,300bp的测序数据,GC含量为43.51%。
1.3 Hi-C测序文库构建和测序
样本的Hi-C测序文库的构建和测序基于标准流程,并进行了一些修改。首先,使用4%甲醛溶液对胸肌组织进行室温下交联处理。随后,取20μl裂解缓冲液将球团重新重悬,并使用100μl NEB缓冲液对细胞核进行重悬。接下来,采用稀SDS裂解液对细胞核进行溶解。然后,使用四碱基酶MboI对DNA进行酶切,并利用生物素-14-dctp标记DNA末端,在完成标记后使用T4 DNA聚合酶去除生物素。随后,使用T4 DNA连接酶进行连接操作。最后,经过DNA纯化处理后,在Illumina Hiseq平台上进行了双端150bp测序。测序结果如表1所示:共获得了1,075,285,592条reads,总碱基数据量达到161,292,838,800bp,reads的平均长度为90,935.80bp,N50长度为100,823bp,GC含量平均为42.82%。
1.4 RNA文库构建和测序
对于6个样本的RNA测序文库构建和测序,首先,使用EasyPure RNA Kit(Transgen)从脑、心脏、肝脏、脾脏、肺、胸肌组织分别中分离出总RNA。随后,采用NEBNext®UltraTM RNA Library Prep Kit for Illumina®(NEB, lpswich, MA, USA)对样本RNA进行测序文库制备。最后,在Illumina HiSeq Xten平台上进行了双端(2×125bp)测序。具体的测序结果请参见表1。其中,心脏组织测序获得reads数量最高,达到45,882,692条,而脾脏组织获得的reads数量最低,为38,462,044条。六个组织平均总reads数据量为6,393,354,550bp,GC含量为46.04%。
针对混合样本的全长转录本文库构建和测序,采用Pacbio Sequel系统(PacificBiosciences, CA, USA)进行全长转录本测序。根据Isoform Sequencing (Iso-Seq)协议,首先使用NEBNext Single Cell/Low Input cDNA Synthesis&Amplification Module对样品进行cDNA合成和扩增。然后,使用PacBio SMRTbell Express Template Prep Kit 2.0对样品进行处理,包括连接适配器和添加SMRTbell序列。接下来,通过ProNex® Size-Selective Purification System进行大小选择纯化,去除低质量和短片段的序列,以完成Iso-Seq文库制备。最后,在Sequel Sequel System (Pacific Biosciences)上进行全长转录本测序,以获取高质量的全长转录本序列信息。总计获得48,373,842条reads,总数据量达到84,725,302,734bp, 平均reads长度为1,751.50bp,N50长度为2,447bp,GC含量为46.05%。
2. 基因组序列图谱构建
2.1基因组大小评估
本研究利用K-mer法基于二代短片段测序数据对太湖鹅基因组大小进行了评估。通过对双端测序文库数据进行统计分析,使用Jellyfish工具获取了K-mer的分布情况。随后,利用 GenomeScope(v 2.0)根据K-mer 分布情况进行建模,从而初步揭示了太湖鹅基因组的特征。在图1C 中,蓝色线表示实际观测到的太湖鹅基因组测序序列中K-mer的分布情况。同时,棕色线表示由于测序错误引起的序列中的K-mer,由于测序错误是随机的,这些K-mer通常具有较低的频数。最终,GenomeScope根据这些信息进行建模,并估计太湖鹅基因组的长度约为1.12Gb,基因组杂合度约为0.5%。基于基因组从头拼接结果显示,太湖鹅属于高杂合度基因组。
2.2基因组组装
本研究联合Hifiasm(v 0.18.5)和NextDenovo(v2.4.0)软件进行组装。使用Hifiasm软件进行基因组组装。首先,分别使用Hifi数据、Hifi+Hi-C数据以及Hifi+ONT超长读+Hi-C数据进行了基因组的组装。另外,采用Hifi+ONT超长读+Hi-C数据使用NextDenovo进行组装。组装结果见表2,其中,NextDenovo的组装效果最佳,具有contigs 244条,N50长度为33,928,929bp,被选择进行下游分析。为了进一步提高组装质量,采用run_purge_dups.py(v 1.2.4)工具去除重复的contigs。最终,根据N50值的评估,选择了Hifi+Ont+Hi-C的组装结果作为后续分析的数据。考虑到ONT三代超长测序存在准确性偏低的问题,使用Hifi数据对ONT数据进行了纠错处理。具体操作包括使用meryl软件(v 1.4)统计kmer出现的次数,利用winnowmap软件(v 2.03)将组装好的基因组与Hifi数据进行重新比对,再经过falconc软件(v 1.15.0)进行二次过滤和删除嵌合比对片段。最后,使用racon软件(v1.5.0)进行三轮纠错,得到经过HiFi纠错后的基因组组装序列。接下来,运用Chromap软件(v 0.2.5)和yahs(v 1.2a.1)软件套件,结合Hi-C数据,对基因组进行高质量组装,获得完整的scaffold序列。为了标识和比对组装好的scaffold序列,将其与已知的狮头鹅基因组(GCA_025388735.1)进行比对分析,通过比对,确定了scaffold序列与狮头鹅基因组中各染色体的对应关系,并根据匹配的1-38号常染色体和Z染色体进行了重新命名。
为了获得较为完整的鹅W染色体序列信息,我们又进行了W染色体辅助组装工作。在已发布的鹅基因组版本中,由于缺乏W染色体的序列信息。为此,以鹅的近缘物种——鸭的基因组为参考,利用ragtag.py软件(v2.1.0)的"scaffold"模块,将尚未拼接的scaffolds拼贴成鹅的W染色体。通过这一策略,我们成功地组装出了一条长度为17.35Mb的W染色体。W染色体由18条scaffolds共同组成,其中scaffold_42是W染色体的主要部分,占据了全长的9.63%。最终我们成功组装出了38条常染色体和W、Z两条性染色体,是目前最完整的鹅基因组(图2)。需要强调的是,由于性染色体结构的复杂性,性染色体的组装难度远高于常染色体。因此,我们采用了辅助组装的方法,并借助鸭W染色体基因组的相关信息,才能获得较为完整的鹅W染色体序列。这项工作对于进一步研究鹅的性别决定机制和遗传特性具有重要的学术价值。
2.3补空缺
使用quarTeT软件(v 1.1.3)对组装的scaffold序列进行了缺口填补。在填补过程中,使用了以下参数:“-GapFiller -g *fasta -t 30 -l 5000 -i 60”,并参考了已用多方法组装的基因组数据。该工具利用四分体比对信息来填补缺口,并借助其他相关已知基因组信息提高填补的准确性。经过缺口填补后,除了两条性染色体上存在少量缺口外,我们成功将33条常染色体完全闭合。图2展示了缺口在各染色体上的分布情况。
2.4基因组完整性评估
使用BUSCO(v 5.4.5)(Seppey et al., 2019)调用metaeuk(v 6.a5d39d9)软件进行基因结构预测,并利用HMMER(v3.3.2)将预测的基因序列与真核生物鸟类参考数据集进行比对。通过分析预测基因序列与参考序列的对齐程度和覆盖度等信息,评估了太湖鹅基因组组装的完整性,即基因组中是否包含这些保守基因序列。根据比对结果的统计,确定了在组装的基因组中存在单拷贝基因(S)和多拷贝基因(D)的情况。其中,96.5%的单拷贝基因能够完整比对到基因组上,0.4%的多拷贝基因完整存在于基因组中。此外,我们还使用Quast(v 5.2.0)软件对基因组的关键指标进行了评估。结果显示,太湖鹅基因组大小为1,197,991,206bp,scaffold N50达到81,007,908bp。与已发布的染色体水平鹅基因组相比,我们组装结果中的scaffolds数量明显最少,仅有73条。值得注意的是,本次组装的scaffold N50长度超过了80M,这一结果明显优于先前的基因组版本。详细比较结果如表3所示。
2.5基因注释
使用RepeatMasker软件(v 4.1.5)对鹅基因组的重复序列进行了注释。根据结果统计(见表 4),在已注释的重复序列中,散在重复序列占整个鹅基因组全长的 8.92 %,总长度约为106.89Mb。其中,约77.17Mb(6.44%)为逆转录因子,而3.66Mb为DNA转座子。此外,太湖鹅基因组上中约有4.87%的序列属于长散在重复序列(Long interspersed nuclearelements, LINEs),这是基因组中所比重最大的重复序列种类。值得注意的是,其中鸟类逆转座子CR1(Chicken repeat 1)的丰度最高,几乎占所有LINEs 的100 %。此外,1.49%的太湖鹅基因组序列属于长末端重复序列(long terminal repeats, LTR),而0.08 %属于短散在重复序列(Small interspersed nuclear elements, SINEs)。在进行重复序列屏蔽后,我们使用Liftoff软件(v 1.6.3)参考NCBI goose genome (GCF_002166845.1)及其注释信息以及转录组数据集,对太湖鹅基因组进行了编码基因和mRNA注释,注释结果显示,共注释到34898个基因和62248个mRNA。
2.6端粒和着丝粒鉴定
在鹅基因组中鉴定端粒和着丝点(centromere)的过程中,我们将动物“TTAGGG”作为鹅的端粒识别序列,并利用quarTeT软件(v 1.1.3)的TeloExplorer功能进行端粒鉴定。结果显示,位于3号染色体两端末端10000bp窗口内有最多的端粒重复序列,分别有1101和1793个,具体的端粒分布示意图可见图3。对于着丝点的鉴定,我们采用了centromics软件((https://github.com/ShuaiNIEgithub/Centromics)),并利用ont和hifi数据集以及Hi-C数据对已组装的基因组进行着丝粒鉴定。根据结果中Hic和TR-CL2(长度测序捕获染色体构象的固定)数据的峰值,确定染色体上着丝粒的位置。着丝粒的位置已在染色体模式图中标注出来(图3)。
2.7物种间基因组共线性
为了研究家禽中鹅与鸭、鸡在核型层面上的相似性,我们使用NGenmoesyn软件(v1.39)对组装好的鹅染色体基因组数据与鸭和鸡染色体基因组进行了共线性比对。如图4所示,大部分鸭的长片段染色体(1-9号染色体)在鹅基因组中都能找到相应一一对应的染色体,尤其是在Z和W染色体上具有高度的相似性。这与鸭、鹅作为水禽具有相似的生活习性和分类学归属相符合。然而,与鹅相比,鸡的基因组与鹅基因组在线性比对结果中仅有少部分区域具有一致性。尽管鸡和鹅都属于家禽类群,但它们在生活习性和进化关系上存在显著差异。这表明鸭与鹅之间具有更近的亲缘关系。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

CN202311854898.4A2023-12-292023-12-29一种地方鹅t2t基因组组装方法PendingCN117802091A (zh)

Priority Applications (1)

Application NumberPriority DateFiling DateTitle
CN202311854898.4ACN117802091A (zh)2023-12-292023-12-29一种地方鹅t2t基因组组装方法

Applications Claiming Priority (1)

Application NumberPriority DateFiling DateTitle
CN202311854898.4ACN117802091A (zh)2023-12-292023-12-29一种地方鹅t2t基因组组装方法

Publications (1)

Publication NumberPublication Date
CN117802091Atrue CN117802091A (zh)2024-04-02

Family

ID=90431238

Family Applications (1)

Application NumberTitlePriority DateFiling Date
CN202311854898.4APendingCN117802091A (zh)2023-12-292023-12-29一种地方鹅t2t基因组组装方法

Country Status (1)

CountryLink
CN (1)CN117802091A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN118335196A (zh)*2024-06-132024-07-12安诺优达基因科技(北京)有限公司一种微小染色体组装鉴定装置、方法及其应用
CN118398090A (zh)*2024-06-262024-07-26安诺优达基因科技(北京)有限公司基因组注释的方法及电子装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN113005189A (zh)*2021-04-162021-06-22中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN113122642A (zh)*2021-04-162021-07-16中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
CN113151426A (zh)*2021-04-162021-07-23中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释霍巴藏绵羊基因组的方法
US20220356461A1 (en)*2019-12-192022-11-10Illumina, Inc.High-throughput single-cell libraries and methods of making and of using
CN115691673A (zh)*2022-10-252023-02-03广东省农业科学院蔬菜研究所一种端粒到端粒的基因组组装方法
CN115810395A (zh)*2022-12-052023-03-17武汉贝纳科技有限公司一种基于高通量测序动植物基因组t2t组装方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
US20220356461A1 (en)*2019-12-192022-11-10Illumina, Inc.High-throughput single-cell libraries and methods of making and of using
CN113005189A (zh)*2021-04-162021-06-22中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释贵德黑裘皮羊基因组的方法
CN113122642A (zh)*2021-04-162021-07-16中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
CN113151426A (zh)*2021-04-162021-07-23中国农业科学院兰州畜牧与兽药研究所一种基于三代PacBio和Hi-C技术组装和注释霍巴藏绵羊基因组的方法
CN115691673A (zh)*2022-10-252023-02-03广东省农业科学院蔬菜研究所一种端粒到端粒的基因组组装方法
CN115810395A (zh)*2022-12-052023-03-17武汉贝纳科技有限公司一种基于高通量测序动植物基因组t2t组装方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication numberPriority datePublication dateAssigneeTitle
CN118335196A (zh)*2024-06-132024-07-12安诺优达基因科技(北京)有限公司一种微小染色体组装鉴定装置、方法及其应用
CN118398090A (zh)*2024-06-262024-07-26安诺优达基因科技(北京)有限公司基因组注释的方法及电子装置

Similar Documents

PublicationPublication DateTitle
JP7284849B2 (ja)不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
Shi et al.Whole genome analyses reveal novel genes associated with chicken adaptation to tropical and frigid environments
CN117802091A (zh)一种地方鹅t2t基因组组装方法
Weldenegodguad et al.Genome sequence and comparative analysis of reindeer (Rangifer tarandus) in northern Eurasia
Elbers et al.Improving Illumina assemblies with Hi‐C and long reads: An example with the North African dromedary
Araki et al.Whole genome sequencing of greater amberjack (Seriola dumerili) for SNP identification on aligned scaffolds and genome structural variation analysis using parallel resequencing
CN106086172B (zh)一种鸡保种群个体选配优化的方法
US20220411882A1 (en)Snp molecular marker for weight gain trait selection and genetic sex identification of ictalurus punctatus as well as screening method and application of snp molecular marker
US20250299774A1 (en)Methods and systems for detecting insertions and deletions
Kumar et al.Genomic diversity and selection sweeps identified in Indian swamp buffaloes reveals it's uniqueness with riverine buffaloes
Wang et al.Chromosome-level assembly and annotation of the blue catfish Ictalurus furcatus, an aquaculture species for hybrid catfish reproduction, epigenetics, and heterosis studies
CN115927649A (zh)与鸡腹脂率相关的snp遗传标记及其应用
Cheng et al.Chicken genomics
Han et al.Telomere-to-telomere and haplotype-phased genome assemblies of the heterozygous octoploid ‘Florida Brilliance’strawberry (Fragaria× ananassa)
CN113122642A (zh)一种基于三代PacBio和Hi-C技术组装和注释湖羊基因组的方法
Zhao et al.Chromosome-level genome assembly of goose provides insight into the adaptation and growth of local goose breeds
Yang et al.High-throughput and cost-effective genotyping by low-coverage whole genome sequencing with genotype imputation in Pacific oyster, Crassostrea gigas
CN104726577B (zh)一种与二花脸母猪产仔性状相关的snp标记及其检测方法
Cao et al.The first near-complete genome assembly of pig: Enabling more accurate genetic research
CN110283892B (zh)基于简化基因组测序技术的褐菖鲉基因筛选和挖掘方法
CN108410995A (zh)新疆多浪羊不同生理时期卵巢基因的筛选与鉴定方法
Du et al.Chromosome-level genome assembly of Huai pig (Sus scrofa)
Xu et al.A chromosome-level genome of the helmet catfish (Cranoglanis bouderius)
CN120310929B (zh)一种奶牛乳蛋白率相关snp分子标记、检测产品及应用
CN113981112B (zh)鉴定三疣梭子蟹氨氮耐受性状的InDel标记C3082、引物及其应用

Legal Events

DateCodeTitleDescription
PB01Publication
PB01Publication
SE01Entry into force of request for substantive examination
SE01Entry into force of request for substantive examination

[8]ページ先頭

©2009-2025 Movatter.jp