微生物群落多样性测序与功能分析

微生物群落测序是指对微生物群体进行高通量测序,经由过程阐发测序序列的组成阐发特心猿意马情况中微生物群体的组成环境或基因的构成以及功能。借助分歧情况下微生物群落的组成差别阐发我们可以阐发微生物与情况身分或宿本家儿之间的关系,寻找标记性菌群或特心猿意马功能的基因。对微生物群落进行测序包罗两类,一类是经由过程16s rDNA,18s rDNA,ITS区域进行扩增测序阐发微生物的群体组成和多样性;还有一类是宏基因组测序,是不颠末分手培育微生物,而对所有微生物DNA进行测序,从而阐发微生物群落组成,基因组成,挖掘有应用价值的基因资本。

以16s rDNA扩增进行测序阐发本家儿要用于微生物群落多样性和组成的阐发,今朝的生物信息学阐发也可以基于16s rDNA的测序对微生物群落的基因组成和代谢路子进行展望阐发,大大拓展了我们对于情况微生物的微生态认知。

今朝我们按照16s的测序数据可以将微生物群落分类到种(species)(一般只能对部门菌进行种的判定),甚至对亚种级别进行阐发,

几个概念:

16S rDNA(或16S rRNA):16S rRNA 基因是编码原核生物核糖体小亚基的基因,长度约为1542bp,其分子巨细适中,突变率小,是细菌系统分类学研究中最常用和最有效的标记。16S rRNA基因序列包罗9个可变区和10个保守区,保守区序列反映了物种间的亲缘关系,而可变区序列则能表现物种间的差别。16S rRNA基因测序以细菌16S rRNA基因测序为本家儿,焦点是研究样品中的物种分类、物种品貌以及系统进化。

OTU:operational taxonomic units (OTUs)在微生物的免培育阐发中经常用到,经由过程提取样品的总基因组DNA,操纵16S rRNA或ITS的通用引物进行PCR扩增,经由过程测序今后就可以阐发样品中的微生物多样性,那怎么区分这些分歧的序列呢,这个时辰就需要引入operational taxonomic units,一般环境下,若是序列之间,好比分歧的 16S rRNA序列的相似性高于97%就可以把它界说为一个OTU,每个OTU对应于一个分歧的16S rRNA序列,也就是每个OTU对应于一个分歧的细菌(微生物)种。经由过程OTU阐发,就可以知道样品中的微生物多样性和分歧微生物的品貌。

测序区段:因为16s rDNA较长(1.5kb),我们只能对此中经常转变的区域也就是可变区进行测序。16s rDNA包含有9个可变区,别离是v1-v9。一般我们对v3-v4双可变区域进行扩增和测序,也有对v1-v3区进行扩增测序。

东西/原料

  • 16s rDNA测序起首需要提取情况样品的DNA,这些DNA可以来自泥土、粪便、空气或水体等任何来历。
  • 提取DNA后需要颠末质检和纯化,一般16s rDNA测序扩增对DNA的总量要求并不高,总量大于100ng,浓度大于10ng/ul一般都可以知足要求。若是是来自和寄本家儿共生的情况如虫豸的肠道微生物,提取时可能包罗了寄本家儿自己的大量DNA,对DNA的总量要求会提高。微生物菌群多样性测序受DNA提取和扩增影响很大,分歧的扩增区段和扩增引物甚至PCR轮回数的差别城市对成果有所影响。因而建议统一项目分歧样品的都采用不异的前提和测序方式,这样彼此之间才存在可比性。
  • 完当作PCR之后的产品一般可以直接上测序仪测序,在上机测序前我们需要对所有样本进行心猿意马量和均一化,凡是要进行荧光心猿意马量PCR。完当作心猿意马量的样品夹杂后就可以上机测序。
  • 16s rDNA测序今朝可以采用多种分歧的测序仪进行测序,包罗罗氏的454,Illumina的Novoseq, MiSeq,Hiseq,Life的 PGM 或 Pacbio 以及 nanopore 的三代测序仪。分歧的仪器各有优错误谬误,今朝最本家儿流的是Illumina公司的MiSeq,因为其在通量、长度和价钱三者之间最为均衡。MiSeq 测序仪可以发生 2x300 bp 的测序读长, Hiseq 和 Novoseq 可以生当作 2x250bp 或者 2x150bp 的测序读长,且通量较大。

方式/步调

  1. 1

    16s rDNA阐发根基流程:

  2. 2

    原始数据处置:

    原始测序数据需要去除接头序列,按照 overlap 并将双端测序序列进行拼接当作单条序列,同时对序列质量进行质控和过滤。供给已知数据库 GreenGenes 作为参考,去除嵌合体序列获得最终可用的序列。

    提掏出的数据以 fastq 格局保留,每个样本有 fq1 和 fq2两个文件,里面为测序两头的 reads,序列按挨次一一对应。

    原始fastq格局是一个文本格局用于存储生物序列(凡是是核酸序列)和其测序对应的质量值。这些序列以及质量信息用ASCII字符标识。

  3. 3

    OTU分类和统计:

    OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行阐发,报酬给某一个分类单位(品系,种,属,分组等)设置的统一标记。凡是按照 97% 的相似性阈值将序列划分为分歧的 OTU,每一个 OTU 凡是被视为一个微生物物种。相似性小于97%就可以认为属于分歧的种,相似性小于93%-95%,可以认为属于分歧的属。样品中的微生物多样性和分歧微生物的品貌都是基于对OTU的阐发。

    利用QIIME(version 1.8.0)东西包进行统计注释。

    利用QIIME(version 1.9.0, http://bio.cug.edu.cn/qiime/)的ucluster方式按照97%的序列相似度将所有序列进行同源比对并聚类当作operational taxonomic units (OTUs)。然后与数据库GreenGenes(version gg_13_8, http://greengenes.lbl.gov/cgi-bin/JD_Tutorial/nph-16S.cgi)进行比对,比对方式uclust,identity 0.9 。

    然后对每个OTUs进行reads数量统计。

    下面的2个表,此中一个表是对每个样本的测序数目和OTU数量进行统计,而且在表栺中列出了测序笼盖的完整度(显示前10个样本)。

    另一个表是对每个样本在分类字程度上的数目进行统计,而且在表栺中列出了在每个分类字程度上的物种数量(显示前10个样本)。

    可以看到绝大部门的OTU都分类到了属(Genus),也有良多分类到了种(Species)。可是仍然有良多无法完全分类到种一级,这是因为情况微生物自己存在很是丰硕的多样性,还有大量的菌仍然没有被测序和发现。

    测序数量统计表本家儿如果对每个样本的测序数目和OTU数量进行统计,而且在表格中列出了测序笼盖的完整度(显示前10个样本,若是样本跨越10个,请查看成果中otu_stat.txt文件)

    此中 SampleName暗示样本名称;SampleSize暗示样本序列总数;OTUsNumber暗示注释上的OTU数量;OTUsSeq暗示注释上OTU的样本序列总数。

    Coverage是指各样品文库的笼盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数现实反映了本次测序成果是否代表样本的真实环境。

    计较公式为:C=1-n1/N  此中n1 = 只含有一条序列的OTU的数量; N = 抽样中呈现的总的序列数量。

    分类程度统计表本家儿如果对每个样本在分类学程度上的数目进行统计,而且在表格中列出了在每个分类学程度上的物种数量(只显示前10个样本,若是样本跨越10个,请查看成果中taxon_all.txt文件)

    此中SampleName暗示样本名称;Phylum暗示分类到门的OTU数目;Class暗示分类到纲的OTU数目;Order暗示分类到目标OTU数目;Family暗示分类到科的OTU数目;Genus暗示分类到属的OTU数目;Species暗示分类到种的OTU数目。

  4. 4

    我们还可以对这些种属的组成进行柱状图显示:

    横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数量或比例。统一种颜色代表不异的分类级别。图中的每根柱子中的颜色暗示该样本在分歧级别(门、纲、目等)的序列数量,序列数量只计较级别最低的分类,例如在属入彀算过了,则在科中则不反复计较。

    Q: 为什么要选择V3-V4区的测序长度?为什么有些文献是V6区,有什么区别?

    A:  16S rRNA总长约1540 bp,包含 9个可变区。因为高通量测序的测序长度的限制,不成能将16S rRNA的9个可变区全数测序,所以在PCR扩增时往往只能选择1-3个可变区作为扩增片段。Kozich 等评估了Miseq测序仪阐发的分歧16S rRNA可变区的精确性发现,测心猿意马 V4 区结果最佳。按照我们的测序长度,v3-v4区是最佳选择。

  5. 5

    我们还需要对样本之间或分组之间的OTU进行比力获得韦恩图:

    注重,韦恩图今朝一般最多只能显示5个样本或分组,过多的样本无法无法进行韦恩图绘制

  6. 6

    样品组成品貌:

    稀释曲线

    微生物多样性阐发中需要验证测序数据量是否足以反映样品中的物种多样性,稀释曲线(丰硕度曲线)可以用来查验这一指标。

    稀释曲线是用来评价测序量是否足以笼盖所有类群,并间接反映样品中物种的丰硕水平。稀释曲线是操纵已测得16S rDNA序列中已知的各类OTU的相对比例,来计较抽取n个(n小于测得reads序列总数)reads时呈现OTU数目的期望值,然后按照一组n值(一般为一组小于总序列数的等差数列)与其相对应的OTU数目的期望值做出曲线来。当曲线趋于平缓或者达到平台期时也就可以认为测序深度已经根基笼盖到样品中所有的物种;反之,则暗示样品中物种多样性较高,还存在较多未被测序检测到的物种。

    下图中的稀释曲线

    横坐标代表随机抽取的序列数目;纵坐标代表不雅测到的OTU数目。样本曲线的延长终点的横坐标位置为该样本的测序数目,若是曲线趋于平展表白测序已趋于饱和,增添测序数据无法再找到更多的OTU;反之表白不饱和,增添数据量可以发现更多OTU。

  7. 7

    Shannon-Winner曲线

    Shannon-Wiener 曲线,是操纵shannon指数来进行绘制的,反映样品中微生物多样性的指数,操纵各样品的测序量在分歧测序深度时的微生物多样性指数构建曲线,以此反映各样本在分歧测序数目时的微生物多样性。 当曲线趋势平展时,申明测序数据量足够大,可以反映样品中绝大大都的微生物物种信息。

    与上图一样,横坐标代表随机抽取的序列数目;纵坐标代表的是反映物种多样性的Shannon指数。

    样本曲线的延长终点的横坐标位置为该样本的测序数目,若是曲线趋于平展表白测序已趋于饱和,增添测序数据无法再找到更多的OTU;反之表白不饱和,增添数据量可以发现更多OTU。

    此中曲线的最高点也就是该样本的Shannon指数,指数越高表白样品的物种多样性越高。

    Q: Shannon指数怎么算的?

    A: Shannon指数公式:

    此中,Sobs= 现实测量出的OTU数量;ni= 含有i 条序列的OTU数量;N = 所有的序列数。

  8. 8

    Rank-Abundance曲线

    用于同时诠释样品多样性的两个方面,即样品所含物种的丰硕水平和平均水平。

    物种的丰硕水平由曲线在横轴上的长度来反映,曲线越宽,暗示物种的构成越丰硕;

    物种构成的平均水平由曲线的外形来反映,曲线越平展,暗示物种构成的平均水平越高。

    一般跨越20个样本图就会变得很是复杂并且不美不雅,所以一般20个样本以下会做该图,图片保留为成果目次中rank.pdf。

    横坐标代表物种排序的数目;纵坐标代表不雅测到的相对品貌。

    样本曲线的延长终点的横坐标位置为该样本的物种数目,若是曲线越光滑下降表白样本的物种多样性越高,而曲线快速陡然下降表白样本中的优势菌群所占比例很高,多样性较低。

  9. 9

    Alpha多样性(样本内多样性)

    Alpha多样性是指一个特心猿意马区域或者生态系统内的多样性,常用的怀抱指标有Chao1 丰硕度估量量(Chao1 richness estimator) 、喷鼻农 - 威纳多样性指数(Shannon-wiener diversity index)、辛普森多样性指数(Simpson diversity index)等。

    计较菌群品貌:Chao、ace;  

    计较菌群多样性:Shannon、Simpson。

    Simpson指数值越大,申明群落多样性越高;Shannon指数越大,申明群落多样性越高。表中显示前10个样本,若是样本大于10个,详见成果目次中的alpha_div.txt。

    Q: 能不克不及诠释下每个指数(如chao1、shannon)?

    A: Chao1:是用chao1 算法估量群落中含OTU 数量的指数,chao1 在生态学中常用来估量物种总数,由Chao (1984) 最早提出。Chao1值越大代表物种总数越多。

    Schao1=Sobs+n1(n1-1)/2(n2+1)

    此中Schao1为估量的OTU数,Sobs为不雅测到的OTU数,n1为只有一条序列的OTU数量,n2为只有两条序列的OTU数量。

    Shannon:用来估算样品中微生物的多样性指数之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。Shannon值越大,申明群落多样性越高。

    Ace:用来估量群落中含有OTU 数量的指数,由Chao 提出,是生态学中估量物种总数的常用指数之一,与Chao1 的算法分歧。

    Simpson:用来估算样品中微生物的多样性指数之一,由Edward Hugh Simpson ( 1949) 提出,在生态学中常用来心猿意马量的描述一个区域的生物多样性。Simpson 指数值越大,申明群落多样性越高。

    辛普森多样性指数=随机取样的两个个别属于分歧种的概率

    =1-随机取样的两个个别属于同种的概率

  10. 10

    Alpha多样性指数差别箱形图

    别离对 Alpha diversity 的各个指数进行秩和查验阐发(若两组样品比力则利用 R 中的wilcox.test 函数,若两组以上的样品比力则利用 R 中的 kruskal.test 函数),经由过程秩和查验筛选分歧前提下的显著差别的 Alpha Diversity指数。

  11. 11

    Beta多样性阐发(样品间差别阐发)

    Beta多样性怀抱时空标准上物种构成的转变, 是生物多样性的主要构成部门, 与很多生态学和进化生物学问题紧密亲密相关, 是以在比来10年间当作为生物多样性研究的热点问题之一。

  12. 12

    PCoA阐发

    PCoA(principal co-ordinates analysis)是一种研究数据相似性或差别性的可视化方式,经由过程一系列的特征值和特征标的目的量进行排序后,选择本家儿要排在前几位的特征值,PCoA 可以找到距离矩阵中最本家儿要的坐标,成果是数据矩阵的一个扭转,它没有改变样品点之间的彼此位置关系,只是改变了坐标系统。经由过程PCoA 可以不雅察个别或群体间的差别。

    每一个点代表一个样本,不异颜色的点来自统一个分组,两点之间距离越近表白两者的群落组成差别越小。PCoA有多张图,别离代表的PCoA1-2,2-3,3-1。

  13. 13

    NMDS阐发(非怀抱多维标准阐发)

    NMDS(Nonmetric Multidimensional Scaling)常用于比对样本组之间的差别,可以基于进化关系或数目距离矩阵。

    横轴和纵轴:暗示基于进化或者数目距离矩阵的数值 在二维表中当作图。

    与PCA阐发的本家儿要差别在于考量了进化上的信息。

    每一个点代表一个样本,不异颜色的点来自统一个分组,两点之间距离越近表白两者的群落组成差别越小。

  14. 14

    PCA阐发

    本家儿当作分阐发PCA(Principal component analysis)是一种研究数据相似性或差别性的可视化方式,经由过程一系列的特征值和特征标的目的量进行排序后,选择本家儿要的前几位特征值,采纳降维的思惟,PCA 可以找到距离矩阵中最本家儿要的坐标,成果是数据矩阵的一个扭转,它没有改变样品点之间的彼此位置关系,只是改变了坐标系统。具体关于本家儿当作分阐发的诠释保举大师看一篇文章,http://blog.csdn.net/aywhehe/article/details/5736659 。经由过程PCA 可以不雅察个别或群体间的差别。

    每一个点代表一个样本,不异颜色的点来自统一个分组,两点之间距离越近表白两者的群落组成差别越小。

    以上三个图可能碰到的问题:

    1:PCA,PcoA,NMDS阐发别离是基于什么数据画的?

    回覆:PCA,PcoA,NMDS阐发均是基于OTU分类taxon数据所画,用的是R说话Vegan包中的相关函数画当作,此中PcoA与NMDS还要基于样本之间的距离矩阵才能画当作。

    2:PCA阐发若是图中大部门点集中在一路,少数点在很远的外围,是什么原因造当作的?

    回覆:是因为样本OTU分类时辰,少数样本某些菌含量出格高所造当作,导致这些样本偏离正常规模,建议零丁拿出这些样本不雅察,看是否是尝试错误。

    3:PCA阐发时,不是有PC1,PC2,PC3三个坐标吗?是给出三张图吗?仍是三维立体图?

    回覆:PCA作图时,会得出PC1,PC2,PC3三个坐标,可以按照PC12,PC13,PC23别离作图,一般给出的是PC12的图,当PC12图质量欠好,看不出较着的样天职类结果时,可以看PC13或PC23的图分类是否清楚,也可以用R说话rgl包做出PC123三维图。

    QIIME自己成果中有供给PCA的三维图成果,可以经由过程网页打开。

  15. 15

    PCA,PcoA,NMDS阐发都属于排序阐发(Ordination analysis)。排序(ordination)的过程就是在一个可视化的低维空间或平面从头摆列这些样本,使得样本之间的距离最大水平地反映出平面散点图内样本之间的关系信息。

    1、只利用物种构成数据的排序称作非限制性排序(unconstrained ordination)(1)本家儿当作分阐发(principal components analysis,PCA)(2)对应阐发(correspondence analysis, CA)(3)去趋向对应阐发(Detrended correspondence analysis, DCA)(3)本家儿坐标阐发(principal coordinate analysis, PCoA)(4)非怀抱多维标准阐发(non-metric multi-dimensional scaling, NMDS)

    2、同时利用物种和情况因子构成数据的排序叫作限制性排序(constrained ordination)(1)冗余阐发(redundancy analysis,RDA)(2)典型对应阐发(canonical correspondence analysis, CCA)

    比力PCA和PCoA:

    在非限制性排序中,16S和宏基因组数据阐发凡是用到的是PCA阐发和PCoA阐发,两者的区别在于:PCA阐发是基于原始的物种构成矩阵所做的排序阐发,而PCoA阐发则是基于由物种构成计较获得的距离矩阵得出的。在PCoA阐发中,计较距离矩阵的方式有良多种,包罗如:Euclidean, Bray-Curtis, and Jaccard,以及(un)weighted Unifrac (操纵各样品序列间的进化信息来计较样品间距离,此中weighted考虑物种的品貌,unweighted没有对物种品貌进行加权处置)。

  16. 16

    LDA差别进献阐发

    PCA和LDA的不同在于,PCA,它所作的只是将整组数据整体映射到最便利暗示这组数据的坐标轴上,映射时没有操纵任何数据内部的分类信息,是无监视的,而LDA是由监视的,增添了种属之间的信息关系后,连系显著性差别尺度测试(克鲁斯卡尔-沃利斯查验和两两Wilcoxon测试)和线性判别阐发的方式进行特征选择。除了可以检测主要特征,他还可以按照效应值进行功能特征排序,这些功能特征可以诠释顶部的大部门生物学差别。具体申明可以参考这篇文章http://blog.csdn.net/sunmenggmail/article/details/8071502 。

    分歧颜色代表分歧样本或组之间的显著差别物种。利用LefSe软件阐发获得,此中显著差别的logarithmic LDA score设为2。

    问题:LDA阐发有什么用?

    回覆:组间差别显著物种又可以称作生物标识表记标帜物(biomarkers),该阐发本家儿如果想找到组间在品貌上有显著差别的物种。

  17. 17

    物种进化树的样本群落分布图

    是将分歧样本的群落组成及分布以物种分类树的形式在一个环图中展示。数据颠末阐发后,将物种分类树和分类品貌信息经由过程软件GraPhlAn(http://huttenhower.sph.harvard.edu/GraPhlAn )进行绘制。其目标是将物种之间的进化关系以及分歧样本的物种分布品貌和最高分布样本的信息在一个视觉集中的环图中一次展示,其供给的信息量较其他图最为丰硕。

    中心为物种进化分类树,分歧颜色的分支代表分歧的纲(具体的代表颜色见右上角的图例),之后外圈的灰色标示字母的环暗示的是本次研究中比例最高的15个科(字母代表的科拜见左上角的图例)。之后的外圈供给的是热力求,若是样本数<=10个则绘制样本,若是样本数跨越10个则按照分组绘制,每一环为一个样本,按照其品貌绘制的热力求。最外圈为柱状图,绘制的是该属所占比例最高的样本的品貌和样本颜色(样本颜色见环最下方的样本名字的颜色)。此中热力求和柱状图取值均为原比例值x10000后进行log2转换后的值

    参考文献:

    1. Vazquez-Baeza Y, Pirrung M, Gonzalez A, Knight R. 2013. Emperor: A tool for visualizing high-throughput microbial community data. Gigascience 2(1):16.

    2. Legendre, P. and Legendre, L. 1998. Numerical Ecology. Second English Edition. Developments in Environmental Modelling 20. Elsevier, Amsterdam.

    3. Segata N, Izard J, Waldron L, et al. Metagenomic biomarker discovery and explanation[J]. Genome Biol, 2011, 12(6): R60.

    4. Langille MGI, Zaneveld J, Caporaso JG, McDonald D, Knights D, Reyes JA et al. (2013). Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nat Biotechnol 31: 814–821.

  18. 18

    物种相关性阐发

    按照各个物种在各个样品中的品貌以及转变环境,计较物种之间的相关性,包罗正相关和负相关。

    相关性阐发利用 CCREPE 算法,起首对原始 16s 测序数据的种属数目进行尺度化,然后进行 Spearman 和 Pearson 秩相关阐发并进行统计查验,计较出各个物种之间的相关性,之后在所有物种中按照 simscore 绝对值的巨细,遴选出相关性最高的前 100 组数据,基于 Cytoscap 绘制共表达阐发收集图,收集图采用两种分歧的形式表示出来。

    物种相关性收集图A:图中每一个点代表一个物种,存在相关性的物种用连线毗连,此中,红色的连线代表负相关,绿色的先代表正相关,连线颜色的深浅代表相关性的凹凸。

    物种相关性收集图B:图中每一个点代表一个物种,点的巨细暗示与其他物种的联系关系关系的几多,此中与之有相关性的物种数越多,点的半径和字体越大,连线的粗细代表两物种之间相关性的巨细,连线越粗,相关性越高。

    参考文献:

    Schwager E, Weingart G, Bielski C, et al. CCREPE: Compositionality Corrected by Permutation and Renormalization[J]. 2014.

  19. 19

    聚类阐发

    按照OUT数据进行尺度化处置(1wlog10)之后,拔取数量最多的前60个物种,基于R heatmap进行作图,热图中的每一个色块代表一个样品的一个属的品貌,样品横标的目的摆列,属纵标的目的摆列,两个热图,差别是是否对样品进行聚类,从聚类中可以领会样品之间的相似性以及属程度上的群落组成相似性。

    若是聚类成果中呈现大面积的白或黑是因为大量的菌含量很是低,导致都没稀有值,可以在绘制之进步行尺度化操作,对每一类菌零丁自身进行Z尺度化。

  20. 20

    组间菌群比力拔取物种标记物

    RDA阐发

    CCA/RDA阐发基于对应阐发成长的一种排序方式,将对应阐发与多元回归阐发相连系,每一步计较均与情况因子进行回归,又称多元直接梯度阐发。本家儿要用来反映菌群与情况因子之间的关系。

    RDA 是基于线性模子,CCA是基于单峰模子。阐发可以检测情况因子、样品、菌群三者之间的关系或者两两之间的关系。

    冗余阐发可以基于所有样品的OTU作图,也可以基于样品中优势物种作图;

    箭头射线:箭头别离代表分歧的情况因子;

    夹角:情况因子之间的夹角为锐角时暗示两个情况因子之间呈正相关关系,钝角时呈负相关关系。

    情况因子的射线越长,申明该影响因子的影响水平越大; 分歧颜色的点暗示分歧组此外样品或者统一组别分歧期间的样品,图中的拉丁文代表物种名称,可以将存眷的优势物种也纳入图中; 情况因子数目要少于样本数目,同时在阐发时,需要供给情况因子的数据,好比 pH值,测心猿意马的温度值等。

  21. 21

    组间菌群比力拔取物种标记物

    (属程度)组间物种差别性箱形图:

    组间物种差别性盒形图描述在分歧分组之间具有差别显著的某一物种做盒形图,图中以属程度为例做物种差别性盒形图。

    图中分歧颜色代表分歧的分组,更直不雅显示组间物种差别。每一个盒形图代表一个物种,图上方是物种名。

  22. 22

    组间菌群比力拔取物种标记物

    Anosim查验

    Anosim阐发是一种非参数查验,用来查验组间的差别是否显著大于组内差别,从而判定分组是否有意义。(做组间差别比力阐发,分组内部至少要3个样本;若样本数不敷或组间差别不较着则不生当作该图)

    R-value介于(-1,1)之间,R-value大于0,申明组间差别显著。R-value小于0,申明组内差别大于组间差别,统计阐发的可托度用 P-value 暗示,P< 0.05 暗示统计具有显著性。对Anosim的阐发成果,基于两两样本之间的距离值排序获得的秩(组间的为between,组内的为within),这样任一两两组的比力可以获得三个分类的数据,并进行箱线图的展示(若两个箱的凹槽互不重叠,则表白它们的中位数有显著差别)

  23. 23

    组间菌群比力拔取物种标记物

    随机丛林分类树属分类结果

    随机丛林是机械进修算法的一种,它可以被看作是一个包含多个决议计划树的分类器。其输出的分类成果是由每棵决议计划树“投票”的成果。因为每棵树在构建过程中都采用了随机变量和随机抽样的方式,是以随机丛林的分类成果具有较高的精确度,而且不需要“减枝”来削减过拟合现象。随机丛林可以有用的对分组样品进行分类和展望。

    物种主要性点图。横坐标为主要性程度,纵坐标为按照主要性排序后的物种名称。上图反映了分类器中对分类结果起本家儿要感化的菌属,按感化从大到小摆列。

    Error rate: 暗示利用下方的特征进行随机丛林方式展望分类的错误率,越高暗示基于菌属特征分类精确度不高,可能分组之间菌属特征不较着。 图中以所有程度为例,取前60个作图。

  24. 24

    组间菌群比力拔取物种标记物

    ROC曲线图

    ROC 曲线指受试者工作特征曲线(receiver operating characteristic curve), 是反映敏感性和特异性持续变量的综合指标,经由过程构图法揭示敏感性和特异性的彼此关系。ROC 曲线将持续变量设心猿意马出多个分歧的临界值,从而计较出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制当作曲线,曲线下面积越大,诊断精确性越高。

  25. 25

    组间菌群比力拔取物种标记物

    (属程度)样本-物种品貌联系关系circos弦装图

    样本与物种的共线性关系 circus 图是一种描述样本与物种之间对应关系的可视化圈图,该图不仅反映了每个样本的优势物种构成比例,同时也反映了各优势物种在分歧样本之间的分布比例。

    样本与物种的共线性关系图,左半边暗示样本属物种品貌环境。右半边暗示属程度在分歧样本中的分布比例环境。在最内一圈:左边分歧颜色代表分歧物种,宽度暗示物种品貌,圈外数值暗示物种品貌刻度值。一端毗连右边的样本,分歧颜色代表分歧样本,条带端点宽度暗示该样本中对应物种的比例分布。最外两圈:左边分歧颜色暗示分歧样本在某一物种的比例,右边分歧颜色暗示分歧物种在某一样本中的比例。

  26. 26

    组间菌群比力拔取物种标记物

    Ternary三元相图

    三元相图是重心图的一种,它有三个变量,在一个等边三角形坐标系中,图中某一点的位置代表三个变量间的比例关系。这里暗示三组样本之间优势物种的差别,经由过程三元图可以展示出分歧物种在分组中的比重关系。

    三角别离代表三个或三组样本,图中的圆别离代表排名最高哦的属程度的物种,三种颜色别离代表三组分歧分组的优势物种,圆圈巨细代表物种的相对品貌,圆圈理哪个极点接近,暗示此物种在这个分组中的含量较高。该阐发仅限三个样本或三组样本之间阐发比力。

  27. 27

    组间菌群比力拔取物种标记物

    相关系数图

    经由过程 R 软件的 corrplot 包绘制spearman 相关性热图,并经由过程该热图可以发现优势物种/样本之间主要的模式与关系。

    蓝色系的为正相关,红色系的为负相关,×暗示查验程度下无意义。越接近颜色条两端,相关系数越大。所以说,我们可以经由过程实心圆的颜色和巨细判定相关的偏向和相关系数的巨细。

  28. 28

    组间菌群比力拔取物种标记物

    GraPhlan 图

    物种进化树的样本群落分布图 GraPhlan 图是将分歧样本的群落布局及分布以物种分类树的形式在一个环图中展示。

    利用 GraPhlan 连系 OTU Table对一个分组所有样本的 OTU 物种注释成果进行总体展示,便于看出优势菌种。

    其目标是将物种之间的进化关系以及分歧样本的物种分布品貌和最高分布样本的信息在一个视觉集中在换图中展示,供给的信息量较其他图更丰硕。

    图中中心为物种进化分类树,分歧颜色的分支代表分歧的纲(具体的代表颜色见右上角的图例),之后外圈的灰色标示字母的环暗示的是本次研究中比例最高的 15 个科(字母代表的科拜见左上角的图例)。之后的外圈供给的是热力求,若是样本数 <=10 个则绘制样本,若是样本数跨越 10 个则按照分组绘制,每一环为一个样本,按照其品貌绘制的热力求。最外圈为柱状图,绘制的是该属所占比例最高的样本的品貌和样本颜色(样本颜色见环最下方的样本名字的颜色)。此中热力求和柱状图取值均为原比例值 x10000后进行 log2 转换后的值。

  29. 29

    菌群代谢功能展望

    经由过程 16S/ITS 多样性测序可以精确知道群落的物种布局,但越来越多的研究表白,微生物的群落功能构成比物种构成与情况关系更为紧密亲密。基于 16S/ITS 的测序成果进行功能展望的方式有 PICRUSt、Tax4Fun、FAPROTAX及BugBase


    FAPROTAX生态功能展望

    FAPROTAX是一条目在2016年颁发在SCIENCE上的较新的基于16S测序的功能展望软件。它整合了多个已颁发的可培育菌文章的原核功能数据库,数据库包含跨越4600个物种的7600多个功能注释信息,这些信息共分为nitraterespiration,methanogenesis, fermentation 和plant pathogenesis等80多个功能分组。

    FAPROTAX是基于今朝对可培育菌的文献资料手动清算的原核功能注释数据库,其包含了收集自4600多个原核微生物的80多个功能分组(如硝酸盐呼吸、产甲烷、发酵、植物病原等)的7600多条功能注释信息。

    若是PICRUSt在肠道微生物研究更为适合,那么FAPROTAX尤其合用于生态情况研究,出格是地球化学物质轮回阐发。FAPROTAX合用于对情况样本(如海洋、湖泊等)的生物地球化学轮回过程(出格是碳、氢、氮、磷、硫等元素轮回)进行功能注释展望。因其基于已颁发验证的可培育菌文献,其展望精确度可能较好,但比拟于上述PICRUSt和Tax4Fun来说展望的笼盖度可能会降低。

    参考文献: Louca, S., Parfrey, L. W. & Doebeli, M. Decoupling function and taxonomy in the global ocean microbiome. Science 353, 1272–1277(2016).

    FAPROTAX可按照16S序列的分类注释成果对微生物群落功能(出格是生物地化轮回相关)进行注释展望。图中横坐标代表样本,纵坐标暗示包罗碳、氢、氮、硫等元素轮回相关及其他诸多功能分组。 可快速用于评估样品来历或特征。

  30. 30

    基于BugBase的表型分类比力

    Bugbase也是16年所供给办事的一条目免费在线16S功能展望东西,到本年才颁发文章发布其软件道理。该东西本家儿要进行表型展望,此中表型类型包罗革兰氏阳性、革兰氏阴性、生物膜形当作、致病性、移动元件、氧需求,包罗厌氧菌、好氧菌、兼性菌)及氧化勒迫耐受等7类

    参考文献:Thomas A M, Jesus E C, Lopes A, et al. Tissue-associated bacterial alterations in rectal carcinoma patients revealed by 16S rRNA community profiling[J]. Frontiers in Cellular and Infection Microbiology, 2016, 6.

  31. 31

    Picrust群落功能差别阐发

    经由过程对已有测序微生物基因组的基因功能的组成进行阐发后,我们可以经由过程16s测序获得的物种组成猜测样本中的功能基因的组成,从而阐发分歧样本和分组之间在功能上的差别(PICRUSt Nature Biotechnology, 1-10. 8 2013)。

    经由过程对宏基因组测序数据功能阐发和对应16s展望功能阐发成果的比力发现,此方式的精确性在84%-95%,对肠道微生物菌群和泥土菌群的功能阐发接近95%,能很是好的反映样品中的功能基因组成。

    为了可以或许经由过程16s测序数据来精确的展望出功能组成,起首需要对原始16s测序数据的种属数目进行尺度化,因为分歧的种属菌包含的16s拷贝数不不异。然后将16s的种属组成信息经由过程构建好的已测序基因组的种属功能基因组成表映射获得展望的功能成果。(按照属这个程度,对分歧样本间的物种品貌进行显著性差别两两查验,我们这里的查验方式利用STAMP中的two-sample中T-TEST方式,Pvalue值过滤为0.05,作Extent error bar图。)

    此处供给COG,KO基因展望以及KEGG代谢路子展望。用户也可自行利用我们供给的文件和软件(STAMP)对分歧层级以及分歧分组之间进行统计阐发和制图,以及选择分歧的统计方式和显著性程度。

    参考文献:

    Donovan H. Parks1 , Gene W. Tyson,STAMP: statistical analysis of taxonomic and functional profiles, Bioinformatics (2014) 30(21): 3123-3124.doi:10.1093

  32. 32

    COG组成差别阐发图

    图中分歧颜色代表分歧的分组,列出了COG组成在组间存在显著差别的功能分类以及在各组的比例,此外右侧还给出了差别的比例和置信区间以及P-value。

  33. 33

    KEGG代谢路子差别阐发图

    经由过程KEGG代谢路子的展望差别阐发,我们可以领会到分歧分组的样品之间在微生物群落的功能基因在代谢路子上的差别,以及转变的凹凸。为我们领会群落样本的情况顺应转变的代谢过程供给一种简洁快捷的方式。

    图解读:图中分歧颜色代表分歧的分组,列出了在第三层级的组成在组间存在显著差别的KEGG代谢路子第三层分类以及在各组的比例,此外右侧还给出了差别的比例和置信区间以及P-value。

    本例图所显示的是第三层级的KEGG代谢路子的差别阐发,也可以针对第二或第一层的分级进行阐发。

  34. 34

    基因的差别阐发图

    除了能对大的基因功能分类和代谢路子进行展望外,我们还能供给邃密的功能基因的数目和组成的展望,以及进行样本间以及组间的差别阐发,并给出具有统计意义和置信区间的阐发成果。

    这一阐发将我们对于样本群落的差别进一步深切到了每一类基因的层面。

     图解读:图中分歧颜色代表分歧的分组,列出了在组间/样本间存在显著差别的每一个功能基因(酶)以及在各组的比例,此外右侧还给出了差别的比例和置信区间以及P-value。

  35. 35

    在获得尺度陈述后若是但愿零丁点窜分组或对某些组之间进行显著性差别阐发,可以利用STAMP软件在本身的电脑长进行数据阐发。STAMP供给了丰硕的统计查验方式和图形化成果的输出。

    在利用STAMP之前需要起首筹办需要的spf格局文件和样品分组信息表。在我们的陈述中已经将KEGG和KO以及COG的成果文件后颠末转换生当作了合用于STAMP软件打开的spf格局文件,还有对应的分组信息表文件groupfile.txt。

    以下是利用STAMP时的一些相关问题,具体的STAMP利用教程可以参考我们供给的STAMP利用教程。

    1、  stamp作图用的原始数据的来历?

    STAMP 可以直接利用来自QIIME的biom文件和PICUST的KEGG和ko 文件,groupfile.txt文件的格局为tab-saperated value (tab键离隔的数据)

     

    2、  分组问题:导入数据之后,viewàgroup legend ,在窗口右侧会呈现分组栏,按照需要进行分组。

     

    3、  Unclassiffied选项中,remain Unclassiffied reads、remove Unclassiffied reads、和use only for calculating frequency profiles 方式的区别?

    remain Unclassiffied reads和use only for calculating frequency profiles方式会保留所有的数据,而remove Unclassiffied reads仅仅保留有确定分组信息的数据。

     

    4、  Statistical test 中,Welch’s t-test、t-test、white’s non-parametric t-test的区别,各自优错误谬误?

    为了确保统计学意义和精确度和切确性,需要足够多的样本数量,t-test查验可以在起码样本数为4的时辰确保高的精确度和切确性。

    当两个样本之间具有不异方差的时辰,用t-test更为精确,当两个样本没有不异方差,Welch’s t-test更为精确。

    当样本数量少于8的时辰,可以利用white’s non-parametric t-test,该计较时候较长,当样本数量过多的时辰不宜利用该方式。

    5、  Two-group 中type: one side 和 two side 的区别?

    One side 只会显示前一个group与后一个group差别的比例,而two side 两者之间的比例均会显示。

    6、 STAMP在利用时起首打开了一个阐发文件,若是新打开一个可能会导致显示错误?

    今朝版本的STAMP存在一些小问题,一次阐发只能利用一个数据文件,若是要打开新的需要封闭软件后再打开。

  36. 36

    有其他问题可以联系谷禾信息。

  • 发表于 2019-11-06 06:00
  • 阅读 ( 1156 )
  • 分类:其他类型

0 条评论

请先 登录 后评论
联系我们:uytrv@hotmail.com 问答工具