简介
RNA-seq下游分析是解读转录组测序数据的关键环节,它在完成原始测序数据的质量控制、序列比对及基因表达定量等前期处理后,通过一系列统计与生物信息学方法,深入挖掘基因表达模式、功能关联及调控机制等生物学意义。而R语言凭借其强大的统计分析能力、丰富的生物信息学包以及灵活的可视化功能,成为RNA-seq下游分析的核心工具。众多专门针对转录组数据开发的R包,涵盖了从差异表达基因筛选、功能富集分析到复杂网络构建等多个分析步骤,能帮助研究者高效处理海量数据并实现结果的直观呈现,极大地推动了从测序数据到生物学发现的转化过程。
主要分析手段及可视化工具
一、差异分析
差异表达分析用于识别在不同条件(如疾病与健康、不同发育阶段、不同处理组等)下基因表达水平存在显著差异的基因。
1. 常用分析包
DESeq2:基于负二项分布模型进行差异分析,能有效考虑测序深度和基因长度对count数据的影响。其在处理高度变异的基因时表现良好,并提供多种标准化方法以减少批次效应等技术噪声。使用时需输入原始的count矩阵(例如通过htseq-count工具获得的数据),且仅支持有重复样品的数据。
limma:最初为微阵列数据设计,后扩展至RNA-Seq数据分析。它运用线性模型进行差异分析,可灵活处理多个因素和协变量,分析速度快。limma可接受原始count矩阵,但需用户自行进行标准化(一般为log转换),也支持重复样品。
edgeR:同样基于负二项分布模型,采用经验贝叶斯方法估计分散参数,提高了差异检验的准确性与稳定性,在处理大型转录组数据集,尤其是识别低表达水平的差异基因方面表现出色。它要求输入原始count矩阵,支持单个样品或重复样品。
2. 可视化包
火山图(Volcano Plot):使用EnhancedVolcano包绘制。火山图能直观展示差异表达基因的显著性(p-value)与表达变化倍数(fold change),帮助快速筛选出具有显著差异表达的基因。横坐标通常为log2(fold change),纵坐标为-log10(p-value),可通过设定阈值(如|log2(fold change)|>1且p-value<0.05)来标记显著差异表达基因。
热图(Heatmap):利用pheatmap包生成。热图可将多个样本中差异表达基因的表达模式以颜色矩阵形式呈现,不同颜色代表不同的表达水平(如红色表示高表达,蓝色表示低表达)。通过对样本和基因进行聚类,能清晰展示样本间的相似性以及基因在不同样本中的表达聚类情况,便于发现具有相似表达模式的基因簇或样本组。
![]() | ![]() |
二、功能富集分析
功能富集分析旨在探究差异表达基因显著富集的生物学功能、分子功能以及参与的信号通路等,从而了解这些基因在生物过程中的作用机制。
1. 常用分析包
clusterProfiler:是功能富集分析的常用工具,可进行GO(Gene Ontology)富集分析和KEGG(Kyoto Encyclopedia of Genes and Genomes)通路富集分析等。对于GO富集分析,它能对差异表达基因在生物过程(Biological Process)、分子功能(Molecular Function)和细胞组分(Cellular Component)三个方面的功能进行富集分析;在KEGG富集分析中,可找出差异表达基因显著富集的代谢通路和信号转导通路。
2. 可视化包
气泡图(Bubble Plot):通过ggplot2等绘图包结合clusterProfiler的分析结果绘制。气泡图可展示富集的功能条目(如GO term或KEGG pathway)、富集程度(如p-value)、基因富集比例以及参与该功能的基因数量等信息。一般横坐标为富集比例,纵坐标为功能条目,气泡大小表示基因数量,气泡颜色反映p-value的大小。
富集条带图(Enrichment Barplot):也利用ggplot2绘制。该图以条带形式展示不同功能条目的富集情况,横坐标为富集的功能条目,纵坐标为-log10(p-value),通过条带的长短和颜色深浅直观体现各功能条目的富集显著性。
![]() | ![]() |
三、加权基因共表达网络分析(WGCNA)
WGCNA通过分析基因表达数据,识别基因间的相互关联模式,将表达模式相似的基因划分到同一模块中,并研究模块与外部特征(如疾病状态、表型性状等)之间的相关性。
1. 常用分析包
WGCNA:该R包提供了构建加权基因共表达网络的一系列函数。首先通过计算基因间的相关性,并对相关性值进行幂次运算(即加权),强化相关系数的变化层次,使网络中的基因连接服从无尺度网络分布。然后基于加权后的相关性构建网络,并进行模块检测,将基因划分到不同模块中。最后可计算模块与外部特征的相关性,找出与特定特征相关的关键模块和基因。

2. 可视化包
基因聚类树与模块划分图:利用WGCNA包中的函数生成。图中展示基因的聚类情况,不同颜色代表不同的模块,可直观看到基因如何被划分到各个模块中。
模块与性状相关性热图:使用pheatmap包绘制。热图展示各模块与外部性状之间的相关性,颜色表示相关性系数,红色为正相关,蓝色为负相关,颜色深浅反映相关性强弱,有助于快速识别与目标性状紧密相关的模块。
实践建议与注意事项
在转录组下游分析实践中,需注意以下要点以确保分析结果的可靠性和生物学意义:
1. 数据预处理的严谨性:下游分析的质量高度依赖前期数据处理。在进行差异表达分析前,需确保原始测序数据经过严格的质量控制(如使用FastQC检查测序质量)、准确的序列比对(如采用STAR、HISAT2等工具)及可靠的基因定量(如HTSeq、featureCounts)。对于count矩阵,需检查样本间的测序深度是否均衡,若存在明显批次效应,可通过sva、ComBat等工具进行校正,避免其对差异分析结果产生干扰。
2. 分析方法的合理选择:不同差异表达分析R包各有适用场景,如DESeq2和edgeR适用于有生物学重复的count数据,且在处理中等至大型数据集时表现稳定;limma在样本量较小或存在复杂实验设计时更具优势,但需注意数据标准化的合理性。功能富集分析中,应根据研究物种选择合适的注释数据库(如人类常用org.Hs.eg.db,小鼠常用org.Mm.eg.db),并根据基因数量调整富集分析的显著性阈值(如p-value或FDR),避免富集结果过于冗余或遗漏关键功能条目。
3. 结果解读的多角度验证:差异表达基因的筛选需结合生物学意义,避免仅依赖统计学阈值(如fold change和p-value),可通过qPCR等实验手段验证关键基因的表达趋势。功能富集结果中,需关注富集条目的连贯性(如同一通路的上下游功能是否同时富集),并结合研究背景判断其与表型的关联性。WGCNA分析中,软阈值的选择需满足无尺度网络特征,模块划分后需通过置换检验等方法验证模块与性状关联的显著性,避免假阳性关联。
4. 代码与数据的可重复性:使用R语言分析时,建议采用脚本化操作(如R Markdown)记录分析流程,明确各步骤的参数设置,便于结果的复现和追溯。同时,需妥善保存原始数据、中间结果(如标准化后的表达矩阵、差异基因列表)及最终可视化文件,遵循FAIR数据原则,为后续合作或二次分析提供便利。
5. 生物学背景的深度融合:分析结果的解读不能脱离具体研究场景。例如,在疾病相关研究中,差异基因应结合疾病的病理机制进行筛选;功能富集得到的通路需与已知的疾病信号通路或生理过程进行比对,优先关注具有明确文献支持的功能关联,避免过度解读统计显著性而忽略生物学合理性。
参考文献
Love, M. I., Huber, W., & Anders, S. (2014). Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome biology, 15(12), 550.
Ritchie, M. E., Phipson, B., Wu, D. I., Hu, Y., Law, C. W., Shi, W., & Smyth, G. K. (2015). limma powers differential expression analyses for RNA-sequencing and microarray studies. Nucleic acids research, 43(7), e47-e47.
Robinson, M. D., McCarthy, D. J., & Smyth, G. K. (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. bioinformatics, 26(1), 139-140.
Blighe, K., Rana, S., & Lewis, M. (2019). EnhancedVolcano: Publication-ready volcano plots with enhanced colouring and labeling. R package version, 1(0), 10-18129.
Kolde, R., & Kolde, M. R. (2015). Package ‘pheatmap’. R package, 1(7), 790.
Yu, G., Wang, L. G., Han, Y., & He, Q. Y. (2012). clusterProfiler: an R package for comparing biological themes among gene clusters. Omics: a journal of integrative biology, 16(5), 284-287.
Villanueva, R. A. M., & Chen, Z. J. (2019). ggplot2: elegant graphics for data analysis.
Langfelder, P., & Horvath, S. (2008). WGCNA: an R package for weighted correlation network analysis. BMC bioinformatics, 9(1), 559.




QQ交谈