基因组De novo 测序是指从头测序,即利用二代和(或)三代测序技术对没有参考序列的物种进行基因组测序,通过生物信息分析对测序数据进行拼接、组装,从而获得该物种的基因组序列图谱。通过基因组De novo 测序技术,可以获得动物、植物、真菌、细菌及腺体结构(如线粒体、叶绿体)的全基因组序列。全基因组序列图谱完成后,可以构建该物种的基因组数据库,为该物种的后基因组学研究搭建一个高效的平台,为后续的基因挖掘、功能验证提供DNA序列信息。
- 分析流程
- 部分结果展示
- 案例分享
- 技术参数
图1 17-mer深度频数分布图
图2 相关物种的基因组GC含量分布
图3 多个物种的蛋白家族的同源性图 (A) 大多数的基因是同源直系基因 (B) 同源直系基因家族的示意图
经典案例
1. 利用第三代测序技术研究亚洲人基因组 Nature Communication. 2016.
Long-read sequencing and de novo assembly of a Chinese genome. Nature Communications. 2016, doi: 10.1038/ncomms12065.
本文利用PacBio三代测序技术分析得到了第一个参考序列级别的亚洲人基因组图谱,组装得到2.93G基因组,Contig N50为8.3Mb,Scaffold N50为22Mb。与目前已发布的de novo个人基因组相比较,利用三代测序技术得到的Contig N50有将近10倍的提高。并且比较Illumina和PacBio测序数据的覆盖率发现,在低GC和高GC区域,Illumina数据的覆盖度急剧降低,但PacBio数据受到的影响非常小,因此在许多Illumina数据覆盖不到(覆盖率小于5)的地方,PacBio数据都能覆盖到,保证了基因组组装在难点区域的准确性。该成果对于中国人群基因组学研究、遗传疾病研究、精准医疗应用等领域具有重要科学及临床价值。
图1 PacBio组装与已发表人类基因组参考序列的比较
图2 Illumina和PacBio数据在GC含量异常区域中测序覆盖率比较
2. 牦牛基因组 Nature Genetics. 2012.
The yak genome and adaptation to life at high altitude. Nature Genetics.2012, doi: 10.1038/ng.2343.
本文利用Illumina HiSeq 2000平台对雌性已驯化牦牛进行全基因组de novo测序,组装获得牦牛的基因组图谱,并进行了初步分析,从中揭示了关于高海拔动物的相关遗传适应性。发现牦牛3个与高海拔低氧环境相适应的基因发生了适应性进化;以及另有5个有助于牦牛从高原稀少的食物中充分获取能量的基因发生了适应性进化;还发现了一些与嗅觉、防御和免疫相关的基因也发生了重要选择性变异。这些新发现对高海拔地区动物的遗传适应性做出了很好的阐释。这项研究不仅揭示了高海拔地区动物重要生理性状背后的遗传特征,也将有助于进一步揭示人类所出现的各种高原不适症,促进对缺氧相关疾病的认识、预防和治疗。
图1 牦牛、牛、狗和人基因组的共有和独有基因家族
图2 a 牦牛及其他几种哺乳动物直系同源基因家族的扩张和收缩;b 牦牛及其他几种哺乳动物Hig域的进化树
推荐文献
[1] Single-Molecule Real-Time Sequencing Combined with Optical Mapping Yields Completely Finished Fungal Genome. MBio. 2015, doi: 10.1128/mBio.00936-15.
[2] The sequence and de novo assembly of the giant panda genome. Nature. 2010, doi: 10.1038/ nature08696.
[3] The yak genome and adaptation to life at high altitude. Nature Genetics.2012, doi: 10.1038/ ng.2343.
文库构建策略
Hiseq 平台
小片段文库( 270bp): Hiseq 4000 平台, PE151;
小片段文库( 5000/800bp): Hiseq 2500 平台, PE126/PE250;
大片段文库( 2Kb/5Kb/10Kb/20Kb/40Kb): Hiseq4000 平台, PE50;
三代测序平台( Pacbio RSII /Sequel)
20Kb SMRTbell 文库
Bionao 平台
100Kb Bionano 文库
测序策略
平台 | 平台明细 | 文库大小 | 测序策略 | 简单基因组 | 高重复(非高杂合)基因组 | 高杂合基因组 |
推荐测序深度 | 推荐测序深度 | 推荐测序深度 | ||||
Hiseq | Hiseq 4000 | 270bp | PE151 | 30X | 50X | 70X |
Hiseq 2500 | 500bp | PE126/PE250 | 20X | 30X | 50X | |
800bp | PE126/PE250 | 10X | 20X | 30X | ||
Hiseq 4000 | 2 Kb | PE50 | 8X | 12X | 15X | |
5 Kb | 3X | 7X | 10X | |||
10 Kb | 2X | 5X | 5X | |||
20 Kb | 2X | 3X | 3X | |||
40 Kb | / | 3X | 3X | |||
Pacbio | RSII/Sequel | 20 Kb |
| 30X | clean data ≥ 30X | clean data ≥ 40X |
Bionano |
| 150 Kb |
| 50X *N | 50X *N | 50X *N |
总计 | Hiseq: 小片段库60X ;大片段库15X; Pacbio 30X; Bionano:50X*N | Hiseq: Pacbio 30X; | Hiseq: Pacbio 50X; |
注: 1) Bionano 部分建议在组装完成后根据组装结果的情况酌情添加;
2) N 指倍性,即如果是 2 倍体推荐深度是 100X,如果是 4 倍体推荐深度是 200X。
送样建议
1、Hiseq 和 Pacbio 各种插入片段文库样品要求:(下列文库接受组织样品提取)
产品名称 | 文库类型 | 样品类型 | 备注 | 质检要求 | |||
体积范围 | 总量 | 浓度( Qubit®- HS) | 完整性及纯度(Gel Photo) | ||||
Hiseq DNA Sequencing( 270bp) | DNA 270 bp Normal library | Genomic DNA,Plasmid DNA, PCR product, etc. | Strongly Recommended | 15 μL - 100 μL | m≥3μg | c≥20ng/μL | No degradation or partially degraded |
Required | 1.5μg≤m<3μg | ||||||
Hiseq DNA Sequencing( 20Kb) | DNA 20Kb mate pair library | Genomic DNA,Plasmid DNA, PCR product, etc. | Strongly Recommended | 15 μL - 100 μL | m≥100μg | c≥133ng/μL | No degradation or partially degraded |
Required | 50μg≤m<100μg | ||||||
Hiseq DNA Sequencing( 40Kb) | DNA 40Kb mate pair library | Genomic DNA,Plasmid DNA, PCR product, etc. | Strongly Recommended | 15 μL - 100 μL | m≥100μg | c≥133ng/μL | No degradation or partially degraded |
Required | 50μg≤m<100μg | ||||||
Pacbio DNA Sequencing ( 20Kb) | DNA 20Kb Normal library | Genomic DNA,Plasmid DNA, PCR product, etc. | Strongly Recommended | 15 μL - 100 μL | m≥20μg | c≥20ng/μL | No degradation or partially degraded. |
Required | 10μg≤m<20μg |
2、Bionanno 平台要求获得高质量的 DNA 样品,要求 DNA 分子片段长度至少达到100Kb,越长越好,因此推荐送组织样品,具体要求如下:
植物组织样品要求:取新鲜植物幼嫩叶片,质量 10-20g, -80 度保存,干冰运输;
动物血液样品要求:动物组织推荐血细胞( PMBC,哺乳动物的血细胞要去除红细胞)和精子,细胞和肌肉组织也可以。
新鲜血液 10ml, EDTA 抗凝, 5 日内有效,冰箱放存,冰盒运输,不用冰袋;
细胞:相当于 3x106 个 DNA 含量的细胞;
精子:具体包埋数按照培养细胞即可;
肌肉: 5-10g, -80℃保存,干冰运输。
FAQ
基因组De novo常见问题