博文

Nature综述：Rob Knight带你分析微生物组数据(2020版)

已有 25399 次阅读 2020-3-30 19:25 |个人分类:读文献|系统分类:科研笔记

微生物组分析最佳实践

Best practices for analysing microbiomes

Impact Factor：34.648

https://doi.org/10.1038/s41579-018-0029-9

发表日期：2018-05-23

中文版更新时间：2018-03-30

第一作者：Rob Knight^1,4,6,12*, Alison Vrbanac^2,12, Bryn C. Taylor^2,12

通讯作者：Rob Knight^1,4,6,12* robknight@ucsd.edu

合作作者：Alexander Aksenov, Chris Callewaert, Justine Debelius, Antonio Gonzalez, Tomasz Kosciolek, Laura-Isobel McCall, Daniel McDonald, Alexey V. Melnik, James T. Morton, Jose Navas, Robert A. Quinn, Jon G. Sanders, Austin D. Swafford, Luke R. Thompson, Anupriya Tripathi, Zhenjiang Z. Xu, Jesse R. Zaneveld, Qiyun Zhu, J. Gregory Caporaso & Pieter C. Dorrestein

主要单位：

¹美国加州大学圣地亚哥分校微生物组创新中心，美国加利福尼亚(Center for Microbiome Innovation, University of California San Diego, La Jolla, CA, USA)

²美国加州大学圣地亚哥分校生物医学科学研究生课程(Biomedical Sciences Graduate Program, University of California San Diego, La Jolla, CA, USA)

⁴美国加州大学圣地亚哥分校医学院儿科(Department of Pediatrics, School of Medicine, University of California San Diego,
La Jolla, CA, USA)

⁶美国加州大学圣地亚哥分校计算机科学与工程系(Department of Computer Science and Engineering, University of California San Diego,
La Jolla, CA, USA)

导读

自然微生物综述(2018 IF：34.648)于2018年5月23日在线发表了Rob Knight亲自撰写(一作兼通讯)的微生物组领域分析方法综述，不到两年引用高达270次，不仅系统总结了过去，更为未来3-5年内本领域分析方法的选择，提供了清晰的技术路线，让大家走干道，少跳坑，发现更可信的生物学规律，做出更好的研究。值得本领域专业人士细心品读。

Rob Knight (https://knightlab.ucsd.edu/)是谁你还不知道吗？他有多牛呢？仅**2019发表高水平文章100篇，截止2020年3月30日，累计发表文章700余篇，引用193156次，代表作QIIME引用19264次、UCHIME引用7857次和UniFrac引用4894次**，h指数高达177 (可怕、恐怖，霍金才121，世界纪录289，详见 https://www.webometrics.info/en/hlargerthan100 )，微生物组领域第一高引作者。Rob Knight教授最早在科罗拉多大学任职，目前就职于加州大学圣地亚哥分校微生物组创新中心主任。他是地球微生物组计划(EMP)、美国肠道计划的发起人之一，详见其主页 https://knightlab.ucsd.edu/

摘要Abstract

复杂的微生物群落形成动态且多样的自然环境，分布范围包括从哺乳动物肠道到土壤。与早期方法相再比，DNA测序技术的和数据分析发展极大地推动了微生物组学分析的发展，包括物种分类精度、假阳性率控制等方面。本文作者从实验设计、分子分析技术的选择、数据分析方法以及多种组学数据的解析等方面，对如何实现最优的微生物组学研究进行探讨。比如对近期快速发展的精确序列变异(exact sequence variants/ESV，详者注：目前更多使用ASV的名称)的方法替代传统基于聚类的OTU分析，整合宏基因组学和代谢组学的方法，组成型数据分析问题等方面的近期突破性的进展开展探讨。值得注意的是，尽管这些方法很新颖，但在研究中还是应当关注实验设计和与研究可重复性相关的经典问题。本综述描述如何带着这些问题进行研究，以帮助研究者深入洞悉微生物组数据背后的生物学规律。

背景介绍Introduction

无论是哺乳动物肠道还是深海沉积物，DNA测序技术的快速发展改变了我们对各类复杂生境中微生物群落组成和动态变化的认识。这些技术上的发展推动从临床研究到生物技术等科学领域微生物组研究数量的激增。与之而来的是研究人员留下的大量实验数据，并使用一系列令人眼花缭乱的计算工具和方法进行分析。和其他研究一样，在微生物组研究中，扎实的实验是至关重要的，实验方法、环境因素和分析都会影响最终结果。虽然本领域当前研究获得了很多引人注目的成果，但仍然缺少数据收集和分析方法的标准。

微生物组分析方法和标准正经历快速发展。特别是过去的两年中，使用精确序列变异来替代OTU(16S测序，不知道OTU你就out了！ )分析进行差异丰度检测，以及相关性分析发展迅速。可以预期，在宏基因组分类和功能方面(Cell：20种宏基因组学物种分类工具大比拼)、从多批数据的整合、进一步改善机器学习(深度学习肠道菌群揭示你的真实年龄)、组成型数据分析以及多种组学分析(Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架)等其他领域，也有类似的进展。然而，很多与微生物研究相关的基本问题都来主要出现在统计和实验设计阶段。因此本领域目前最重要的挑战是，整合微生物组研究中独有的新方法，同时记得采用广泛应用于科学研究的标准方法。

在一篇文章中很难完整涵盖本领域所有内容，本综述旨在为微生物组实验设计和分析数据结果提供直接的指导标准，特别关注人类、模式生物以及环境微生物组。更多细节，我们将推荐读者阅读现存特定主题更专业的综述。

实验设计Experimental design

设计可以获得有意义数据的实验是分析的第一步。典型的科学问题，例如疾病-对照(case–control)和纵向干预(longitudinal interventions)研究等都可以放在微生物组的背景下研究。研究者可以分析在不同群落之间或时间序列下，微生物群落之间结构组成、遗传学或功能的潜在差异。值得注意的是，无论样本来源是什么，微生物组分析的普遍方法(见知识点1)都适用。但是，这些分析的特定细节取决于样品来源，例如不同样品的可能采用16S rRNA基因的不同的扩增区域，才能成功概述宏基因组测序数据。(详者注：如16S扩增子分析中常用V4、V3-V4、V4-V5等，各有优缺点，详见：引物评估；植物中还常用V5-V7)

在评估不同样品时，还需要考虑的重要问题是实验设计和样品收集。对人类微生物组相关研究容易出现的问题进行分析，发现实验设计对研究过程非常重要，通常这些值得注意的问题在动物模型和环境样品中同样适合(见知识点2)。

对微生物组研究而言，细致的实验设计对获得准确和有意义的结果至关重要。如果不加以控制，很多复杂因素可能会影响和干扰微生物组数据中的一些模式的发现(图1)。认真记录并检查样本元数据(metadata)信息，合理的对照组(包括提取物、试剂空白对照)，严密的实验设计中隔离和询问感兴趣的可变因素等都是至关重要的。

图1. 微生物组实验设计中的注意事项

Fig. 1: Experimental design considerations for microbiome experiments.

开展一项可信度高的微生物组研究需要考虑众多因素

a. 混杂因子对照：年龄、性别、饮食和生活方式。疾病组 vs 对照组
按年龄、性别、饮食和生活方式等潜在的混杂因子分层(stratification)可以部分解决由于混杂效应掩盖组间真实差异的问题

b. 纵向取样：取样地点，季节变化-春、夏、秋、冬
纵向研究是非常有力的手段，即可以控制混杂因子，又可以评估群体的稳定性

c. 实验技术引入的偏差：引物、空白对照、试剂差异或污染
由于试剂盒、引物、样品储存条件等因素可影响结果，因此实验有标准化的样本处理方法是必须的。需要收集样本处理各阶段的元数据(metadata，即样本描述信息)，包括临床可变因素、样本处理等，这些信息对于数据解释非常重要。没有元数据，很难从测序数据中得出有意义的结论。

详者注：DNA提取对结果影响极大，详见《DNA提取也能发Nature？》

d. 动物模型：需注税食粪性、同笼效应、饮食、设施和运输等因素
以上因素也需要动物模型中考虑，此外在动物研究中，食粪性的影响必须在实验设计中注明

首先必须确定实验范围，然后为感兴趣的问题选取适合的实验设计。

例如，横向研究(cross-sectional studies)适用于发现不同人群(如健康和疾病)或生活在不同区域人群之间的微生物群落差异。然而除了我们所感兴趣的疾病原因之外，个体之间微生物组较大差异的原因也可能是由于饮食、生活习惯、生理以及药物等因素导致的，这此因素差异甚至超过研究目标的差异。例如糖尿病患者微生物组变化的研究表明可能与二甲双胍等药物作用相关。而纵向研究(longitudinal studies,)，特别是在疾病发作前收集基线样本(baseline samples)可以帮助我们解决这些问题，但此种方法成本较高。为了方便下游统计分析，纵向研究应该仔细规划样品采集的时间安排：对于人类相关研究而言，这可能意味着要为每个被试者在相同的时间点采集样品。有趣的是，与在同一时间点表现出的特定分类群相比，疾病活动的有利预测因子可能更源自于群落的不稳定性。例如和炎症性肠道疾病相比，个体的微生物组群落结构波动比对照组更大。对于包括双盲选随机对照实验在内的介入治疗(interventional)研究，对于确定治疗过程的微生物组和疾病状态关系中较为有效。基于分析计划和特定的科学问题来设计实验可以帮助我们确定样本量。(推荐阅读：样品生物学重复数据选择 1必要性 2需要多少重复？)。例如，为了研究新的广谱性抗生素对小鼠肠道菌群的影响，与评估α多样性(定量测定种群内多样性)的变化规律相比，可能需要更多的样本来观察特定类群对抗生药物治疗的影响，因为在不同小鼠的基础微生物群落组成就是不同的。预期抗生素可以降低所有小鼠的α多样性，但它可能通过不同的方式来影响微生物群落组成。对于任何的实验设计来说，需要采用适当的方法来评估统计能力(statistical power)，以区分技术的可变性及真实的生物学结果。然而统计能力和效应量分析(effect size analysis)仍然是微生物组研究中的一大挑战。目前用于分析统计能力和效应量分析的方法大多基于置换多元回归方差分析(permutational multivariate analysis of
variance，PERMANOVA，原理详见：Adonis和ANOSIM方法组间整体差异评估原理)、狄利克雷-多项式分布(Dirichlet Multinomial)或者随机森林分析，详见的分类、回归实例。随着这些方法的进一步发展，和宏基因组学、宏转录组学、宏蛋白质组学以及代谢组学数据相结合，实验设计和适当样本量的选择也都得到了合理的改进。对于具体的实验设计，建议多阅读同行高水平文章中有类似样本类型和预期结果的相关研究。下面我们对微生物组实验设计的一些重要问题进行了扩展。

知识点1. 优秀工作示例

Box 1 Good working practices

微生物组学分析中，可重复性至关重要。相似的微生物组研究常常产生相反的结果，如果没有详细的样品采集方法、实验设计、数据处理和分析过程的详细记录，就很难检查和解释出现差异的原因。随着本领域新分析技术的发展，也有必要使用新的工具来重新分析一些早期的实验数据，因为重复性对此类研究非常重要(如Microbiome：野生哺乳动物的皮肤和肠道微生物对核污染的反应中提到核污染动物皮肤微生物多样性分别有升高、不变或降低的报导)。在收集样品时，采样的详细过程应当完整记录，并且应当考虑到更多的影响因素。另外，实验中要遵循基因组标准联盟提出的标记基因(marker gene)和宏基因组的基因组最小信息标准(minimum information standards, MIxS)：MIMARKS和MIMS(此外还有不可培养细菌、古菌的单扩增基因组Single Amplified Genome (MISAG)和宏基因组装基因组Metagenome-Assembled Genome (MIMAG)、末培养病毒基因Uncultivated Virus Genome (MIUViG)等标准可参考)。这些标准保证各个数据集可以横向比较。在生物信息学处理过程中，研究人员应该跟踪它们运行的所有命令和软件版本，并且将原始数据和样本元数据储存在公共数据库中。我们推荐使用Jupyter Notebooks，R Markdown等工具来实现这个目的，然后将其储存在GitHub等版本控制管理系统中。一些软件包，例如QIIME 2以及Galaxy等，可以通过整合数据系统自动追踪研究者的这些信息。Qiita和EBI是强大的组学分析和数据存档工具，二者结合起来可以使研究者在成千上万的其他样品的大数据背景下分析自己的微生物组数据，并与发表数据进行比较，同时这些数据也可以被其他研究人员轻松访问并使用。(这些软件、数据库的简介和链接见文末链接部分)

知识点2. 考虑不同的微生物组的差异

Box 2 Considerations for different microbiomes

尽管，微生物组数据分析方法广泛应用于多种样品类型和环境中，实验设计和方法的选择还是需要认真全面的考虑不同的样品类型。首先要注意的问题是样品的组成和使用不同方法的可行性。对于被非微生物DNA严重污染的样品，如植物、动物组织(通常宿主DNA占样本的90-99%，想要获得6 Gb微生物数据，理论上需要测序60 - 600 GB原始数据)等如果不排除掉宿主的DNA，鸟枪法宏基因组测序是不太可行的，如NBT封面：纳米孔宏基因组6小时识别下呼吸道病原体中采用皂苷去除99.99%宿主使病原体可以准确检测、Science：病原菌激活植物内生菌群的抑病功能中采用离心等方法富集根内生菌的方法。根据不同的实验问题，如果样品被死亡微生物等DNA遗迹严重污染(如土壤样品)，则需要在提取DNA之前使用物理方法来去除遗迹DNA(relic DNA)，例如使用单叠氮化丙锭或其他方法。收集的样本量也取决于样本类型，比如生物量较高的粪便样品可能只需要使用拭子、棉棒，而微生物密度较低的样品可能需要较大的体积或浓度才能获取足够的DNA。例如，海洋微生物群落样品通常需要大量的水进行过滤，才能浓缩并获取足够的物质进行DNA提取。尽管这样，在所有情况下，都应当包括合理的对照(尤其是空白阴性对照，以确定全过程的污染程度、种类和可能来源)，尤其是需要全面控制取样过程中的污染物，需要研究对象环境中较低生物量的情况，例如血液、脊液或者干净的实验室工作环境。实际上，DNA污染物在很多试剂中都能找到，包括拭子、DNA提取试剂盒和PCR试剂。另外，样品的保存方法同样由分析方法和样品类型决定。举个例子，宏转录组需要RNA酶抑制剂，宏代谢组需要保存样品的同时不影响其代谢物的提取和数据收集。

除了考虑样品采集之外，实验设计和原始数据的采集也需要根据样品类型和环境进行仔细调整。例如，动物研究需要评估同笼(co-housing cage)效应，并且应当将实验组分成多个小组养于多个笼中。应当收集新鲜的样品，并且将原始的小鼠情况记录在元数据中。环境样品则需要收集和环境条件相关的元数据，如pH、盐度、海拔、取样深度等。收集的方式很大程度上取决于样品类型，在此可能无法对所有的样品进行详细说明。我们对推荐采用同行广泛使用且验证有效性的方法进行采集样本。同时研究中收集、保存和储存的方法应该在所有样品中保持一致，以避免混淆因子引起的变异。在室温储藏期间，样品的组分可能会受到某些微生物生长而改变。室温下保存样本方法选择，推荐阅读Microbiome:室温存储样本方法比较。

确定对照和筛选标准Defining controls and exclusion criteria

确定明确的选择和排除标准，可有效的限制混淆因子的影响。例如，在个体抗生素治疗后恢复时间的变化表明，在过去六个月内接受抗生素治疗的个体应当排除在微生物组的相关研究之外，类似的，洗手后的2个小时皮肤微生物组才能恢复。

在病例-对照实验设计中，对照样本必须进行适当的选择和匹配。年龄和性别是最常见的对照选择标准。但实际上，性别对于大多数人身体各部位的微生物组影响较弱，而药物和饮食等其他的因素往往影响更，是更值得注意的控制因素。这些微生物组变量的相对效应值仍在持续出现中(混淆因子的效应大小由整体的差异程度和因素的影响程度决定)。全面收集临床数据对于识别无法控制的复杂因素至关重要，这个主题的讨论详见15年Rob Knight发表在Microbiome上的综述(Context and the human microbiome)。环境研究还必须考虑类似的混杂因素，因为地块之间的差异(plot-to-plot variation)是生态文献中公认的混淆现象，应通过嵌套统计检验(Nested statistical tests)加以解决。

动物模型Animal models

研究微生物组的主要动物模型是啮齿动物，如小鼠。其他具有不同微生物复杂性的模型，如鱿鱼，昆虫或斑马鱼，通常可用于研究宿主和微生物之间的特定相互作用(例如，微生物组和宿主遗传如何相互作用)。但是啮齿动物通常是首选，因为它们具有较好的研究基础，并且和人类有较多生理上的相似性。啮齿类微生物组研究需要仔细的实验设计，由于他们具有嗜粪性(coprophagic)，因此随着时间的推移，在一个生存空间中的生物学个体间的微生物组会均匀化，因此实验必须在多个笼子中以限制同笼效应(cage effects)。亲本的影响(Parental effects)还需要使笼子之间的同窝仔动物随机化并允许标准化。单间饲养(Parental effects)会给小鼠带来压力，因此在技术上或道德上通常是不可行的，因此避免一只小鼠在一只笼子中。即使是基因型完全相同的啮齿动物，由于环境因素(包括饮食，胎次，供应商，运输和设施等)的不同，它们的微生物组也可能不同。此外，早期微生物组的暴露大大影响已形成的微生物组，并且进一步影响免疫系统的发育。类似的考虑也适用于其他共同饲养的模型生物，例如斑马鱼。

技术变异Technical variation

从DNA提取到测序，不同实验方法之间的技术差异很大（详见Nature Methods：Quantifying spatiotemporal variability and noise in absolute microbiota abundances using replicate sampling）。在研究中所有样品必须使用相同的试剂盒，并且在纵向研究中应当收集多个基础样品用来评估时间点间在变异性。在采样、DNA提取、PCR和测序过程中，设计空白(阴性)对照对于监测污染至关重要。在运输过程中产生、或污染的微生物的读长(reads，即短序列)在分析过程中应当尽量减少，因此样品应尽可能在-80℃保存。对于一些现场研究或其他不能及时冷冻保存的情况，可以使用常温保存方法，例如95％乙醇，或商业产品如RNAlater或OMNIgene Gut试剂盒。人工合成菌群(Mock communities 具有己知的样品组分)可用于标准化分析，即在每次DNA测序过程中包括相同的标准样本。总之，使用不同方法产生的微生物组数据一致性依然是一个未能解决的难题。

根据实验的研究范畴(包括整体实验设计、样品类型和来源、测序方法以及下文讨论的其他因素)，研究人员可以先获得样本在群落水平上的概述，甚至从微生物群体水平对功能变化进行深入的分析和探索。

靶向测序方法Sequencing targets and methods

标记基因、宏基因组以及宏转录组测序研究微生物组会产生不同的结果。所有广泛应用的方法都具有其不同的优缺点，因此，问题、假设、样品类型和分析目标都应该与所选的方法相匹配(表1)。在这里，我们对标记基因、宏基因组以及宏转录组的测序成本、合理性、分辨率、以及难度等多方面进行综合比较。概述了图2二中每个方法的最佳工作流程。如果实验目的是想获到微生物组较高水平、但低分辨率较低的概述，首选标记基因测序(扩增子)。宏基因组测序可以通过分析样品中的总DNA而获得更多的细节，可以在菌株的水平上加以辨别，并提供基因更多的分子功能信息。对于宏转录组测序总RNA，则是更多地用于描述微生物群落中的基因表达。

表1. 三种常用菌群研究方法的优缺点

Table 1 Pros and cons of genomic analyses for evaluating microbial communities

标记基因分析(扩增子)

优点

样品制备和分析速度快、简单、成本较低
与基因组含量的相关性较高
适合于生物量较低、宿主DNA污染程度较高的样品
可用于与现有的大量公共数据集比较

缺点

不能区分DNA来源中生物体是否有生命
受到扩增偏好性的影响较大
引物和可变区的选择对结果影响较大
要求对微生物群落有一定的先验知识
物种鉴定分辨率通常限于属水平
需要适当的阴性对照
获得的功能信息有限

全宏基因组测序

优点

可以直接获得微生物功能基因的相对丰度；基于已知物种可鉴定分辨率可达物种、甚至菌株水平
不需要微生物群落相关的先验知识(如捕获噬菌体、病毒、质粒以及微小真核生物等)
一般不会产生PCR偏好性
可以估算有参考基因组微生物的原位生长速率
可组装获得群体平均基因组(甚至可以获得其中一些微生物较完整的基因组)
可以挖掘新的基因家族

缺点

成本相对较高，样品制备和分析较复杂
来自宿主和细胞器的DNA污染可能会掩盖微生物的特征
病毒和质粒通常无法自动化注释
与其他方法相比，通常需要较高的测序通量(几G - 几百G)
不能区分DNA来源于有生命或无生命的生物体
由于受组装影响，平均群体微生物基因组往往不准确

全宏转录组测序

优点

当与标记基因分析结合使用时，可以估算群落中哪些微生物正在进行积极的转录过程
只能鉴定活动生物，排除休眠、死亡微生物及胞外DNA
能够捕捉个体内部的动态变化
直接评估微生物的活性，包括对干扰或者暴露等情况的响应

缺点

费用最高，样品制备和分析过程最复杂
必须排除宿主的mRNA、和rRNA污染
样品的收集和存储要十分小心
数据结果对有高转录率的生物体有偏向性
需要与DNA测序结果结合，才能获得细菌丰度变化和转录率

图2. 16S、宏基因组和宏转录组测序的最优工作流程

Fig. 2: Best workflow for 16S ribosomal RNA, metagenomic and metatranscriptomic sequencing

在仔细设计和样本采集后，微生物组数据产生主要包括16S、宏基因组或宏转录组测序。16S测序后，我们推荐使用Deblur获得单碱基变异的参考序列(sOTUs)。尽管DADA2与Deblur结果类似，但Deblur支持并行处理速度更快且更稳定(在不同样品中获得相同sOTUs)。宏基因组和宏转录组首先要去除宿主DNA或rRNA，和宿主RNA。过滤后的序列可以采用Kraken、MEGAN或HUMAnN等有参方法(read-based)，或De novo组装的方法metaSPAdes和MEGAHIT分析。基于以上三种方法的基本分析，接下来的高级分析，如α, β多样性，物种组成、机器学习等可进一步挖掘微生物组变异的样式。随机森林回归有许多成功的应用，如尸体死亡时间预测，微生物组成熟指数等。来源贝叶斯估计软件SourceTracker可非常有效地估计微生物样本分类在环境中的来源。ITS，转录间隔区。

标记基因测序(扩增子)Marker gene analysis

标记基因测序使用的引物，常常是针对某一感兴趣的特定区域进行设计，从而能够确定样品中微生物的系统发育关系。这个区域通常包含高度可变区，可用于区分研究对象的组成，并且两侧包含可以用作PCR引物结合位点的高度保守区。例如用于细菌和古细菌鉴定的16S rRNA基因和用于真菌鉴定的转录间隔区(ITS)。标记基因的扩增和测序经过了大量的测试，是一种可以高效低成本获得较低分辨率微生物群落结构的方法。这种方法适合于被宿主DNA污染的样品，比如植物或动物组织、以及较低生物量的样品。但是由于这些引物扩增区域的DNA序列不同，可能对DNA序列的亲和力不同产生偏好性，从而影响PCR扩增结果。标记基因测序中的偏好性来源可能是由于不同的可变区选择、扩增子片段大小和PCR循环次数等。引物偏好性对较低生物量的样品影响尤其显著，因为随着PCR次数增多，污染微生物就会被过多的扩增，从而产生较大的影响。优化引物有助于减轻引物偏好，但这需要有关微生物群落组成的一些先验知识，用于评估目标群落中微生物组成分、分类以及覆盖度等。然而，即使经过较好优化的引物也常常受限于种属等分类学水平。标记基因测序通常与基因组背景的相关性较好，所以这也适用于最广泛的样品类型和实验设计。关于扩增子引物选择，可进一步阅读：16S结构 16S单V4区是最佳选择? 引物评估等文章。

全宏基因组分析 Whole metagenome analysis

宏基因组分析就是对样本内所有微生物基因组进行测序的方法。宏基因组测序与单独的标记基因测序相比，能够获到更加详细的基因组信息以及更高的分类学分辨率，但是在样品制备、测序和分析的成本上更加昂贵。研究者需要得到样品中存在的所有DNA ，包括真核生物DNA以及病毒等。达到足够的测序深度(即每个样品测序读长的数量)、才能够确定物种或者菌株水平的分类学信息、以及尽可能依靠较短的DNA序列来组装成整个微生物基因组。然而，从头注释功能基因是不可能实现的。宏基因组测序在基因水平上获得整个群落功能的能力远超标记基因可分析的范围。但是在文库构建、组装以及参考数据库进行注释等方面的不同和偏好仍不清楚，远不如标记基因的方法成熟。随着宏基因组领域的发展，这些注释步骤将得到进一步的验证和改进，关于宏基因组学的全面综述，推荐阅读2017年自然生物技术的综述：宏基因组从取样到分析，详见《Nature综述：2万字带你系统入门鸟枪法宏基因组实验和分析》。

宏转录组分析 Metatranscriptome analysis

宏转录组分析是通过使用RNA测序来分析微生物组的转录过程，从而提供关于基因表达和微生物组功能活性等信息。之前介绍的标记基因以及宏基因组方法仅对样品中的DNA序列进行分析，不管其细胞存活情况和活性如何，而宏转录组以活动生物才能稳定表达的RNA为研究对象。虽然有一些方法从死细胞中消除遗迹DNA，但对微生物RNA进行测序可以更好地了解微生物群落的功能活性，但对于转录活性较高的生物体有一定的偏向。值得注意的是，采用叠氮溴化丙锭(propidium monoazide, PMA)去除遗迹DNA的方法也是获得活性微生物组的可选方法之一。宿主RNA污染，特别是较高丰度的rRNAs，也是另一个重要的考虑因素，应当考虑从样本中去除rRNAs的方法。尽管有些样品类型可能有专门的RNA纯化方案，RNA还是必须小心保存，以免在各种情况下被降解。例如，土壤样品需要去除酶抑制腐殖质(humic substances)。尽管这些技术较为困难，但是宏转录组数据可以为研究者提供新颖独特的视角，例如转录组的变化幅度要大于宏基因组，宏转录组可以研究微生物群落对异型生物质(如药物、杀虫剂、致癌物等)的扰动过程。如果你想全面了解宏转录组学分析，请阅读《使用宏转录组进行微生物组研究》的文章(Bashiardes, S., et al. 2016. Bioinform. Biol. Insights.)。

分析Analyses

理想情况下，每个微生物组研究将使用以上三种方法来分析样本，然而在大多数情况下，没有足够的样品生物量或足够的项目资金来完成全部三种分析，并且在一些情况下，样品可能并不适用于其中的一种测序方法。因此需要研究人员根据特定科学问题来选择最有效的方法。如果预算允许，我们推荐使用宏基因组学测序，而不是标记基因测序。然而通常情况下，大家通过标记基因测序可低成本快速获得低精度的微生物群落组成信息。接下来就取决于研究的关注点，研究人员可以继续进行宏基因组学和宏转录组测序，但是有可能需要进行更合理的样品采集和处理的二次研究。

标记基因分析 Marker gene analyses

综上，标记基因的方法对诸如引物选择之类的技术因素较为敏感，因此应选择广泛应用、充分验证的实验方案，例如，在地球微生物组项目中设置多样化样品的实验方案是推荐使用的。分析标记基因数据的第一步是去除序列错误：尽管序列错误率很低，在Illumina测序中，每个核苷酸的错误率仅为 ~ 0.1%，但是很大部分明显的序列多样性来源于测序错误（如1M碱基可能拥有1000个测序错误，造成增长成百上千的多样性；大规模的实验测序量可达 Billion）。直到最近，这个问题得在序列聚类成OTUs中被发现并关注。OTUs聚类，即将相似的序列(通常具有97％相似性阈值)合并归为单个的特征，然后将序列的变体(包括通过序列错误引入的序列变体)合并成可用于随后分析的单个OTU。但是这种方法会在一定程度上，遗漏一些细微但真实的生物序列变异，例如存在SNP的序列本该为多个独立OTUs。寡聚分型基于16S rRNA基因测序中位置的特异性信息，来鉴定单碱基变异(SNP)从而加以区分非常相似但不同的分类群。诸如Deblur和DADA2等算法，使用测序错误校正的模型来转换测序数据为精确序列(标记基因序列)，也称为亚-OTUs(sOTUs)。这些方法得到的结果是一个DNA序列表，是每个样品中的不同序列数，而不是OTU群组。因此我们推荐，当需要与常见的全长数据参考数据库比对的时候，这些方法替代现有基于OTU的方法，除非需要组合使用不同技术(即Illumina测序和454焦磷酸测序)产生的测序数据或者是引物不同。

一个关键的分析步骤是为微生物序列进行物种分类注释。物种分类常用机器学习的方法，如，RDP分类器(naive Bayesian classifier)，它使用的是传统的贝叶斯模型，在属的水平上，对核苷酸的出现频率进行训练，然后在属的水平上进行分类，准确度可达~80%。另外，较为常见的微生物组分析软件流程还有QIIME以及Mothur（还有USEARCH/VSEARCH），包括物种分类的功能模块。原则上，与三大参考数据库(三个最具特色且经常使用的是Greengenes，RDP和Silva)精确匹配应当提供更好特异性的分类学分配，但当存在大量未知的分类群时这种方法的敏感性较差。此外，由片段较短的标记基因构建的系统发育树通常结果较差，将标记基因序列插入到基于全长序列的参考序列系统发育树中是一种更好的做法。另外，应当对未分类的微生物进行核糖核酸序列分析是否为细胞器的序列，如叶绿体、线粒体(宿主非特异扩增序列)。在很多研究中，这些细胞器序列是应该在分析前过滤去除的(肠道样品研究中，这些序列可以用来鉴定食用的食物种类，不应当完全忽略)。

功能预测分析是一种将标记基因和可用的微生物基因组相联系的技术，用来预测宏基因组，从而推断其生物功能。这种分析通常需要基于参考数据库生成OTU表，然后基于演绎模型(如PICRUSt)为这些基因含量预测提供置信区间，即在距离参考基因组较远的树置信度低，而在许多参考基因组可用的区域则置信度高。因此，影响这些结果准确性的重要因素就是参考基因组的可用性。预测功能分析的另一个限制就是，有些细菌家族的表型和基因型上存在差异，但是它们的16S rRNA可变区非常相似，难以区分。

大多数可应用于微生物组标记基因测序的统计方法，也同样适合于在接下来高级分析中提到的其它组学数据分析。

宏基因组和宏转录组分析 Metagenome and metatranscriptome analyses

研究测序样本的完整核酸情况，可以获得微生物群体更大范围的物种组成、功能和进化方面的信息，甚至污染都可以提供重要的发现(如宿主所占比例单因素可有效预测健康状态，如粪便中大量人源序列可能有严重肠道疾病或内出血，植物样本微生物含量极高时可能是疾病或坏死组织，甚至可进一步探索潜在的污染源等)。和扩增子分析类似，分析方法的选择需要考虑样本的来源和特定的假设为前提。这里我们将讨论此类分析的最优方法。

将未组装的DNA或mRNA序列与参考数据库比对，可以获得物种和功能基因注释。随着输入数据和数据库的大小都在前所未有的快速增长，为提高分类速度，相关方法也在不断优化。许多工具使用k-mers分类DNA短片段的物种，如Kraken【Kraken：使用精确比对的超快速宏基因组序列分类软件】；或如Bowtie2和Centrifuge等软件，使用Burrows-Wheeler变换算法实现压缩合并数据库相似序列。关于更广泛的工具选择，我们推荐读者阅读17年基因组生物学的相关软件评测文章(McIntyre, A. B. R. et al. Comprehensive benchmarking and ensemble approaches for metagenomic classifiers. Genome Biol.)，详者推荐阅读2019年最新Cell的评测【Cell：20种宏基因组学物种分类工具大比拼】。物种分类标记基因方法采用广泛关注的单拷贝基因，如【MetaPhlAn2一条命令获得宏基因组物种组成】和TIPP。此外HUMAnN2：人类微生物组统一代谢网络分析2可进一步注释基因和代谢通路。如果有物种和功能注释两种需求，使用MEGAN同时获得两类功能也是推荐的。因为每个读长是独立处理的，所以基于读长的方法对于处理土壤微生物组的大数据集更高效的。值得注意的是，基于序列相似有参比对的物种和功能注释，数据库的选择是至关重要的。为了更好的描述人类肠道环境的特征，高质量(curated是指是由专业人士校正并审核)的基因组数据库如RefSeq，和蛋白家族数据库如Pfam或UniRef的使用，可以增加结果的准确性并减少计算资源的消耗。对于研究较少的环境样本，可以考虑使用NCBI nr/nt和IMG/M的大数据库，虽然会增加计算资源的消耗和降低物种分类的特异性，但数据库更大结果会更全面无偏。专用数据库用于注释特别的物种和功能类别，如专注噬菌体的PHASTER、抗生素抗性基因的Resfams(只有个小数据库，很久不更新。推荐CARD，有本地和在线版，更新也更及时)、环境样本的FOAM。此外，许多宏基因组是有参考基因集的，如海洋样本基因集Tara(Cell：Tara2.0基因表达的改变和群落的更替塑造了全球海洋宏转录组)、华大基因BGI的小鼠肠道样本、MetaHit的人类肠道样本【Nature：基于宏基因组测序构建人类肠道微生物组参考基因集】。

另一种分析宏基因组和宏转录组的方法是拼接短序列为长序列(contigs也叫叠连群)，这些长序列可进一步按相似性进行分类或分箱(bin按序列组成和丰度聚类为单个物种)，以获得部分或完整的微生物基因组。此方法不仅可以挖掘数据的物种和功能基因组成，而且可以预测多基因的生物合成通路，甚至可以使用如antiSMASH：微生物次生代谢物基因簇预测【NAR：antiSMASH数据库2—次级代谢物基因簇预测】工具来重构代谢产物的基因簇。
然而，使用基于组装的分析方法是有条件的(不适合所有项目)，如果样本生物多样性高、存在较多相关菌株、以及重叠群覆盖度较低等，会导致下游分析中不准确。例如，土壤样本因其微生物多样性较高、物种分布不均匀等特点，组装非常困难(一些研究土壤单样本测序量至少30G，甚至可达300 Gb，【NC：全球柑橘根际微生物组的结构和功能](https://mp.weixin.qq.com/s/urokvo4NUVfdZ-6cju5Zzw)】)。想要避免复杂的宏基因组组装，可选同行发表的己组装好的宏基因组参考数据集，或组装宏转、型多功能宏基因组拼接工具、MEGAHIT快速组装、 IDBA-UD：组装非均匀覆盖度的宏基因组和单细胞数据，使用详见metaSPAdes、MEGAHIT和评估quast。对这些工具的讨论，推荐阅读 17年的宏基因组组装软件评估(Vollmers, J., Wiegand, S. & Kaster, A. K. Comparing and evaluating metagenome assembly tools from a microbiologist’s perspective - not only size matters! PLoS ONE)。
想要组装获得部分或完善的单菌基因组，长序列通常采用MaxBin2，或CONCOCT进行分箱(binning，或分类)为假定的单菌基因组，分箱主要原理是基于丰度和核酸组成等信息。分箱的理论可阅读一文读懂宏基因组binning；实战可阅读分箱宏基因组binning, MaxBin, MetaBin, VizBin，目前有更好的整合分箱工具【Microbiome：宏基因组分箱流程MetaWRAP 简介安装和数据库部署实战和结果解读】和【Nature子刊发表的DAS工具: 利用去重、聚合和评分的策略从宏基因组中恢复基因组】。评估分箱基因组的质量，CheckM使用单拷贝基因来估算基因组的完整性和污染率。VizBin可以在不基于参考序列条件下，可视化宏基因组序列组装结果，使用户可以方便查看相关物种的序列分类簇，输助评估分箱的质量。
由于宏基因组组装的复杂性，我们推荐使用在这方面整合好的工作流程，可以自动化进行数据分析，如组装assembly和分箱bin结果可视化分析平台—Anvi’o，ATLAS，或MetAMOS。

为了比较不同测序量的样品，可通过许多标准化方法解决这一问题。常用的标准化方法有RPM (reads per million，每百万的序列数，即百万比，类似于百分比)，TPKM (transcripts per kilobase million，每百万单位kb长度转录本数量，对数据量和基因长度同时标准化，使不同基因间相对丰度可比)，或相对丰度(relative abundance，如百分比，或总体为1的小数)。此外，有许多工具可以进行更为复杂的标准化方法，如edgeR和DESeq2(采用基于负二项分析的标准化方法，在高通量测序数据领域应用极广泛，edgeR使用实战详见3热图：差异菌、OTU及功能)。

新工具在基于读长/有参(reads-based)和基于组装/无参(aseembly-based)方法均快速发展。软件方法的选择、优缺点评估应该基于背景研究清楚的数据集，或人工合成的数据集(Nat. Methods: 宏基因组软件评估—人工重组宏基因组基准数据集CAMI)，这样才能根据自己的项目特点，选择合适的方法，有利于微生物群体研究获得更合理的结果。

高级分析 Higher-level analyses

微生物组数据经过处理，可以获得特征(features，如物种不同分类级或基因)与样本的丰度矩阵。但这一结果是存在迷惑性(deceptively)的，因为微生物组数据通常是高维数据，包括几千个不同物种，表格存在许多零值的稀疏性特点；因此需要注意的统计处理方法，以挖掘有意义的结果。

Alpha和Beta多样性常用于评估微生物组的整体变异。Alpha多样性可以量化样品内的特征多样性，也可以进行样品组间比较。例如，我们一个疾病个体与健康对照，研究者可比较组间Alpha多样性的物种均值。Alpha多样性物种测量的方法有三类：丰富度(richness)的测量常用观测的物种数(Observed OTU / Richness)和Chao1丰度估计(估计真实物种多样性)，进化距离测量采用信任系统发育多样性(Faith’s phylogenetic diversity)，这两类方法受样本测序深度影响很大；此外还有一类即考虑丰富度，又考虑均匀度的Shannon指数，对测序量不敏感。详见箱线图：Alpha多样性解读。请注意，这些方法仅限用于16S数据，应用于其它微生物组数据类型可能并不合适。

Beta多样性比较每对样品间的差异，产生所有样品对间的距离矩阵。度量标准的选择对结果影响较大，需牢记我们在挖掘生物学数据并关注其背景的意义。Bray-Curtis、Canberra、有权重的UniFrac等定量度量采用特征的丰度信息进行计算，binary-Jaccard、无权重的UniFrac定性方法仅考虑特征的有无。进化方法的Unifrac分析需要进化树文件，可提供更生物学的解析，但缺少树文件时无法使用。

可提供alpha， beta多样性分析的软件有QIIME、Mothur和R语言vegan包(usearch也可以)。(Alpha多样性组间常用ANOVA)，无参数的置换(permutation)检验方法PERMANOVA、ANOSIM用于估计的不同组间beta多样性的显著性，其中PERMANOVA应用于组间变异较大的数据集更好用。计算Alpha和beta多样性，需要研究者掌握抽样技术(即每个样本中抽取相同数量的序列)，不同的抽样数量级可影响结果。目前计算Unifrac最好的方式是稀疏/稀释(rarefracation)，但一些特殊情况下的成对差异丰度比较需要完整的样本数据集。

Beta多样性数据可视化采用排序的技术，常用如主坐标轴分析(PCoA)或主成分分析(PCA)。点我读懂PCA和PCoA、PCoA绘制时间序列R代码实例。这类方法将复杂的距离矩阵，转换为可观察的2或3维空间，代表样品间距离。样品可以按分组信息着色，方便观察组间差异，属于无监督的方法。EMPeror框架提供可交互式的显示PCoA图。

另一种常用分析方法是比较感兴趣组间(处理、对照)微生物或功能(基因、通路)的差异。微生物组数据具有高维、松散、组成型等特点，鉴定解析微生物群落差异的分类群具有挑战性。组成是问题的关键；当一种微生物增长，因为比例总和为1，其它必然会降低。例如，己知某个病人的药物只影响一个微生物属，对其它菌无任何影响。尽量其它微生物不受药物影响，但它们相对丰度减少，是由单个微生物属过度生长引起的。这种情况影响许多经典方法的结果，如参数统计检验(如student’ t-test和ANOVA，还有wilcoxon秩和检验)、计算相关性(如Spearman排序相关系数)通常导致完全不可接受的超90%假阳性率。最近，组成意识(compositionally aware)方法提到了组成和相对丰度方法的问题。一种方法是在统计检验上强制进行强生物假设：如Lovell’s比例度量方法仅检测正相关。其它一些工具为微生物组数据专门做了优化，假定小部分物种是相关的，大多数的相关系数为0，如SparCC和SPEIC-EASI。BAnOCC是另一个提出组成问题的工作，它对数据无任何假设。我们推荐使用另一种方法，等距对数比例转换(isometric log ratio transform , ilr)，用于检测微生物群体间差异。ilr方法控制假阳性率，采用检测微生物丰度对数变化检验，通常认为平衡。平衡构建基于先验知识，如进化历史或微生物对环境因子pH响应的生态位分化。ilr应用后，标准统计工具(如多元响应、线性回归和分类)可更有效的检测平衡或对数比例的微生物组数据差异。最近也有绝对定量的方法，包括补充测序和细胞计数。

机器学习是在微生物组领域非常有效的方法，可基于当前状态区分样品(分类，由己知的分类与结果学习，预测末知分类，如健康和疾病、亚种分类【NBT封面：预测水稻亚种】)，或预测将来某一状态（例如，可根据口腔菌群预测牙龈炎的易感性和严重程度，儿童肠道菌群发育状态、年龄预测、植物生育时期【随机森林回归】）。随机森森回归有许多应用，如预测尸体死亡时间【16S+功能预测发Sciences：尸体降解过程】、确定儿童菌群成熟度。SourceTracker可以估计末知群体微生物来源和组成，最有用的是可根据环境样品来分类微生物的来源【SourceTracker—微生物来源分析】（详者注：来源追溯最新的软件是Nature Methods：快速准确的微生物来源追溯工具FEAST）。注意，机器学习需要足够的样本量，用于交叉验证，一定要有独立的实验或数据集来确定模型的可靠性。

整合多组学数据Integrating other omics data

了解微生物群落的组成并不是研究的终点，我们更想知道群体的功能。扩增子测序，宏基因组，宏转录组，宏蛋白组，宏代谢组和其它技术的多组学数据整合，可用于特定微生物群体功能和组成的深入研究。例如，改变的代谢组成反映出生物合成的活性——mRNA、蛋白表达和蛋白活性。多组学分析将化学和生物学知识结合，提供研究对象更完整的系统生物学新方法，是一个活跃的研究领域(图3)。

图3. 整合微生物组与多组学数据

Fig. 3: Integrating omics data with microbiome data.

分子生物学的中心法则

以细菌细胞为例：从DNA —— RNA —— 蛋白 —— 代谢物的过程的概述，正好对应多组学研究的6个层面。

a. 空间相关性分析

采用三维可视化分子和微生物特征地图，帮助我们理解空间相关性

b. 稀疏典型相关分析

鉴定线性的两个子集存在高度相关

c. 相关网络

相关网络分析展示成簇的微生物与代谢物，这些代谢物可能是相关微生物的产物，方便确定合成源头

d. 代谢活性网络

依赖特定物种分子机制的数学模型，代谢活性网络帮助预测微生物群体结构和功能

GSSG，氧化型谷胱甘肽

e. 普氏分析法

普氏分析法可以在同一主坐标轴内可视化数据的趋势，直接比较具有相同内部结构的不同组学数据，

f. 多重共惯性分析

MCIA可以通过图形代表不同类型，多维比较不同组学数据，相似的组学数据可以更容易理解。

RNA-Seq，转录组测序或RNA测序

整合多组学数据存在本质的困难。例如，基因表达与代谢物来自不同的时间尺度，微生物产生许多种代谢物，通常仅是响应其它物种的信号。宏基因组和宏代谢组的数据集(数据矩阵中大多数为0)比宏蛋白组的数据更松散，这使很多分析方法处理时存在问题。尽管多组学整合是正在发展中的领域，相关可用工具也逐渐增加，如【Nature Protocols：整合宏基因组、代谢组和表型分析的的计算框架】。例如XCMS在线整合代谢物数据和代谢通路，也可整合蛋白组和转录组。传统的成对相关分析方法Spearman和Pearson，也可以进行多组学分析。然而，高维度、高稀疏度的微生物组数据、代谢组数据存在较高假阳性率。普氏分析(Procrustes analysis)采用降维(dimensionally reduce)数据样本数据间样式(距离)，依赖于相关排序空间而不是个体的特征(使用Mantel或PROcrustes随机检验)。其它方法整合组学数据集时，不仅考虑样本间关系，而且关联样本与特定元数据中关注的分类信息(如检查健康与疾病组，或对照与处理组)。此类方法如多重共惯性分析，在两个不同数据集中对样本相关多维数据进行降维，还有相关元数据(relevant
metadata)、偏最小二乘(partial least-squares)、典范相关分析(canonical correlation analysis)、稳健稀疏典型相关分析(obust sparse canonical correlation analysis，是一种处理稀疏组学数据的方法)。

优秀的综合分析工具有全球自然产物学会(Global Natural Product Social，GNPS)的分子网络可鉴定代谢物与注释通路、具有普适的系统生物学在线工具如XCMS。多组学空间样式研究己久，目前正在增加时间序列上的研究。空间地图可以使用工具ili展示，使研究人类多组学数据更方便挖掘和解释。

整合分析多组学数据需要多种统计方法。但这些方法在微生物组数据中一般是次优的。简单发现组学数据内部的相关是第一步，建立因果联系是下一阶段的挑战。知识点3介绍了代谢组学和微生物组数据整合分析方法，使研究从相关向因果推进。在多组学分析中，多重比较校正十分必要，因为数据集可能包括几千种不同的微生物和代谢物，所以会有很多偶然的显著相关。校正显著性检验的方法有假阳性率(如Benjamini–Hochberg校正)，更保守的总体错误率(family-wise error)校正(如Bonferroni校正)。使用这些方法校正，对降低多组学分析中假阳性率非常有帮助。

尽管仍存在诸多挑战，但多组学数据整合分析是非常有前景的。也有一些宏基因组、宏转录组和代谢组成功整合的例子，阐明微生物组中基因调控、微生物与代谢物共相关。这类研究发现的意义远超单组学研究，如研究肠道细菌代谢异生质，和抗生素诱导的微生物组减少产生艰难梭菌适宜的代谢组环境。相对的，宏蛋白组和微生物组数据是一个新研究领域，成功的案例有鉴定Crohn疾病的生物标记、研究永久冻土层中的微生物蛋白产物。此外，宏蛋白组注释和分析的工具正在开发中。综上所述，整合多组学数据可以更全面的理解微生物组——从DNA鉴定到蛋白和代谢物的功能，使用研究结果可有科学意义。

知识点3. 代谢组与微生物组

Box 3 Metabolomics and the microbiome

微生物产生代谢物可影响宿主和微生物群体动态变化，并与宿主的疾病和健康状态有关。代谢物有益处(如短链脂肪酸)或毒性(基因毒率大肠杆菌素)影响宿主。然而，鉴定微生物组中代谢物来源是非常困难的。更有挑战的是鉴定代谢物来源于哪种微生物、收集微生物的代谢产物、修饰特定代谢物。下面简单总结解决这些困难的策略：

比较自然样品和微生物组培养菌(分离的微生物)代谢物。一种有效的方法是比对临床或环境样品串联质谱和分离培养菌的数据，发现特异的代谢物标志可被认为来源于某个可培养微生物。
在微生物基因组和宏基因组中鉴定代谢物合成基因。一些代谢物只存在于特定的微生物分类中。检测自然样本的代谢物，可以确定可能来源的基因组。例如，2，3-丁二酮是链球菌一种特异的发酵产物。检测临床样品中的代谢物和生物合成基因，可辅助定位生物途径的来源物种基因组。
构建微生物与代谢物的共现网络。共现网络或相关方法把微生物与代谢建立联系。这是一个热门研究领域，可用的算法对检测松散的微生物数据进行了优化，如SparCC、CCLasso和其它等。需要注意的是，此方法在多元数据集中假阳性率很高。
无菌与特异无病原小鼠模型。通过比较定殖或未定殖特定微生物小鼠鉴定微生物组代谢物。限菌(Gnotobiotic)小鼠(包括单菌或指定群体定殖)有助于鉴定关注的特定的微生物和代谢产物。

结论Conclusions

本综述讨论了微生物组研究各阶段工作的指南，从实验设计、收集储存样品、测序数据的图形结果中挖掘规律等，均对结果与生物学解释有影响。由于许多实验技术步骤对生物学结果有巨大影响，因此建立标准化的实验步骤是必须的，这样才可能跨实验联合分析。第一步努力是提出推荐使用最佳实践，如国际人类微生物标准、微生物质量控制(Microbiome Quality Control，MBQC)计划(DNA提取也能发Nature？，NB：实验vs分析，谁对结果影响大)。生物信息分析流程和对照也正向标准化而努力，如使用云平台实现可重复计算、公开原始数据和分析源代码实现可重复研究，这些方面的快速发展为微生物组领域结果的一致和可比较成为可能。一个最重要方法是引入内参的标准化(在生物芯片分析领域中已经非常普遍)，使微生物组分析中真实生物学样本可以在系统水平量化。

本文主要关注了群体水平DNA层面的分析，转录组和单细胞测序等技术快速发展，也很容易应用于这类数据。同时提到要避免在昂贵分析中经常出现的错误，如不合理的样本量和验证，使用最优方法作为标准，样本处理，组成型数据分析，和其它常见的陷阱。使用MBQC和环境微生物组(EMP)中标准化、样式清楚的样品收集新方法，可极大缩短探索新方法的时间。

随着该领域趋向于越来越大的数据集，了解流行病学家长期以来所知的细微混杂因素并更加注意纵向研究设计将变得越来越重要。干预研究相对于观察研究的价值是巨大的，尤其是当人类，动物模型和体外数据可以在不同规模和系统之间建立关联时。技术标准化程度的提高以及低噪声和低偏差方法的传播将大大提高微生物组领域实现从实验室规模研究到临床，田间或自然环境的可应用转化的能力。

附录：名词解释 Glossary

Exact sequence variants：准确序列变异，目前更多使用扩增序列变异（Amplicon sequence variants, ASV）。在扩增子(标记基因)测序数据分析中，使用测序读短的原始序列代替之前聚类生成的OTUs。此方法的出现是受近几年测序错误纠正算法提高才得以实现，代表方法有Delbur, dada2和unoise3，较OTUs仅有属水平的精度相对，此方法有时最高可达株水平的单碱基精度，比OTU看到更多细节，在低复杂度的样本中使用效果更佳，推荐使用。进一步学习推荐阅读扩增子分析还聚OTU就真OUT了、
主流非聚类方法dada2,deblur和unoise3介绍与比较
Operational taxonomic units：可操作分类单元(OTUs)，经过比对，通常将一组相似性大于97%的序列定义为一个微生物种群(群体)。推荐阅读：16S测序，你必须认识OTU
Machine learning：机器学习，使用算法来学习数据建立模型，然后可以预测数据。常见的两种应用是分类(如 Nature：肠道菌群高盐与高血压关系)和回归( 如作者早期Sciences发表的16S+功能预测尸体死亡时间
)。
Metadata：元数据，即样品的描述信息。在很多研究中通常以表格(矩阵)的形式出现，其中样品名称为行，元数据的各种不同属性为列，如分类、年龄、性别、经纬度、平均月降水量、季节、疾病状态等等。详见QIIME 2 元数据Metadata，样品命名注意事项实例
Alpha diversity：样品组内多样性的描述指数。详见Alpha多样性稀释曲线rarefraction curve
Effect size analysis：效应大小分析。指定量分析元数据集中的一些类别(如性别、处理组、测序批次等)对菌群的影响程度。
Marker genes：标记基因。通常指的是如16S/18S rRNA基因以及转录间隔区(ITS)等保守区域，它们具有典型特征包括：可以用来鉴定物种分类单元的高可变区，同时其两端是高保守区域可作为PCR引物的结合位点。
Nested statistical tests：嵌套统计检验。统计检验中涉及到的和主效应有关的变量。例如，土壤地块就是测试肥料对土壤微生物群影响的嵌套因子。
Coprophaic：食粪性，涉及到粪便的消耗。一些动物物种通过食用粪便，对食物中的植物组织进行二次分解消化。这将导致同笼中的动物肠道菌肠较相似。
Reads：测序读取的DNA序列，可翻译为读长，大家在平时交流更喜欢直接叫reads
Metatranscriptome：宏转录组，测序一个生物群落中基因转录物的总和。
Humic substances：腐殖质，通过有机质的生物降解而产生的。腐殖质是腐殖土壤的主要成分。
Metagenomes：宏基因组，生物群落中遗传物质的总和，例如，人类肠道样品中的所有微生物的全部遗传物质。
Naive Bayesian classifier：朴素贝叶斯分类器，在机器学习中使用的简单概率分类器，是基于贝叶斯定理的一个应用，推测两类样品间的独立性。
K-mers：通过DNA测序获得的序列中所有可能的长度为k的序列。
Beta diversity：beta多样性，样品组间多样性的常用描述指数，主要量化样本间差异或相似性。
Faith’s phylogenetic diversity：基于系统发育进化树来计算样品α多样性的一种方法。
Shannon index：描述群落多样性的一个常见的指标，是一种综合指数，它即包括丰富度(richness)，又考虑均匀度(evenness)。
False discovery rates：假阳性率，进行多重比较时，揭示无效假设检验中I型错误率的方法。
Isometric log ratio transform (ilr)：等距对数比例转换。使用树作为参考，将比例向量转换为对数比例向量。计算的对数比率由树内相邻分支之间物种比例的平均对数的差异组成。
Random forests regression：随机森林回归，是一种使用决策树执行分类的机器学习技术，可以用于学习后预测某事发生时间，如生长阶段，死亡时间等。
Family-wise error：总体错误率，在执行多个假设检验时，发生一个或多个I型错误的概率。

热心肠日报导读

一文读懂：Rob Knight手把手指导菌群研究(必读综述)

花开 06-18 热心肠日报

原标题：菌群分析的规范

① 菌群研究和分析方法正高速发展，研究方法标准化、数据共享平台的推广为联合独立项目、完善已有成果提供可能；

② 实验设计需合理设置空白和对照组，并考虑实验动物的习性；

③ 可参考对已知菌群的分析效果，决定采用标志基因组、宏基因组还是宏转录组研究手段和分析方法；

④ 基于序列实际差异的菌群分析方法应逐步代替OTU分析；

⑤ 基于菌群相对丰度的相关性分析容易出现假阳性，需要优化分析方法；

⑥ 多组学数据联合有助于进行全面的、机制性的菌群研究。

主编评语

菌群研究和分析方法日新月异，本文系统性地介绍了菌群研究的实验设计、方法选择和数据分析方式，在列举和比较大量研究方法的同时，指出了目前OTU分析、菌群丰度分析和相关性分析的缺陷，强调数据共享、方法标准化的重要性。文中提及大量最新研究、分析方法和平台，指导作用强，值得专业人士参考。

参考文献

文章主页 https://www.nature.com/articles/s41579-018-0029-9
PDF下载链接 https://sci-hub.tw/10.1038/s41579-018-0029-9
何茂章本文阅读笔记 https://note.youdao.com/share/mobile.html?id=1070e1e78a8e1d7d8b7049f160bbd523&type=note&from=timeline
一文读懂：Rob Knight手把手指导菌群研究 https://www.mr-gut.cn/papers/read/1052334830
相关技术文档链接来自宏基因组公众号，ID: meta-genome

文章译者简介

秦媛，博士在读。2014年毕业于河北农业大学植物保护专业，2017年于中国林业科学研究院获森林保护硕士学位，现就读于中科院遗传发育所。现己发表论文10余篇，专利1项；其中第一作者文章4篇，分别发表于Biotechnology Advances、Frontiers in Microbiology、Fungal Ecology、Plant Communications，累计影响因子17.9。合作作者在Nature biotechnology、Current Opinion in Microbiology、中国科学生命科学、遗传等杂志发表文章。主要研究方向包括根际微生物组结构与功能、宏基因组学分析方法和科研插图绘制。

刘永鑫，博士。2008年毕业于东北农业大学微生物学专业，2014年于中科院遗传发育所获生物信息学博士学位，2016年遗传学博士后出站留所工作，任宏基因组学实验室工程师。目前主要研究方向为宏基因组数据分析和植物微生物组，QIIME 2项目中国唯一参与人。目前在Science、Nature Biotechnology、Cell Host & Microbe、Current Opinion in Microbiology 等杂志发表论文20篇，引用800余次。2017年7月创办“宏基因组”公众号，目前分享宏基因组、扩增子原创文章600余篇，代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》、《QIIME2中文教程(18篇)》等，关注人数8.2万+，累计阅读1300万+。

宏基因组/微生物组是当今世界科研最热门的研究领域之一，为加强本领域的技术交流与传播，推动中国微生物组计划发展，中科院青年科研人员创立“宏基因组”公众号，目标为打造本领域纯干货技术及思想交流平台。公众号每日推送，内容涉及科研思路、实验和分析技术、文献解读、重要成果报导等。目前经过近一年发展，分享近1600+篇原创文章，已有82000+小伙伴在这里一起学习了，感兴趣的赶快关注吧。

转载本文请联系原作者获取授权，同时请注明本文来自刘永鑫科学网博客。
链接地址：https://blog.sciencenet.cn/blog-3334560-1226030.html

上一篇：Cell子刊：人体肠道病毒组高度多样、稳定且个体特异
下一篇：EL：谁说N素含量高就不固氮了(本研究反而“多多益善”)

收藏 IP: 59.109.148.*| 热度|

当前推荐数：0

该博文允许注册用户评论请点击登录评论 (0 个评论)

数据加载中...

返回顶部

刘永鑫

扫一扫，分享此博文

woodcorpse的个人博客分享 http://blog.sciencenet.cn/u/woodcorpse

博文