转录组测序(bulk RNA-Seq)上游数据处理(未完成)
背景
Bulk RNA-seq (RNA sequencing)
是一种广泛使用的技术,用于研究细胞或组织样本中的总 RNA 表达情况。它可以帮助科学家定量分析样本中不同基因的表达水平,并了解基因在不同条件下的差异性表达。Bulk RNA-seq
和single cell RNA-seq
的最主要区别在于单细胞测序代表单个细胞(single cell),而bulk测序代表一群细胞(a population of cells)。
原理
在 bulk RNA-seq
中,RNA 是从一个混合细胞群体(例如组织、培养细胞)中提取的。这意味着测序得到的数据是该细胞群体中所有细胞的平均表达情况,而不是单个细胞的表达水平。这种方法的步骤通常包括以下几个环节:
- RNA 提取:从样本中提取总 RNA,通常只保留 mRNA。
- RNA 片段化:将提取的 RNA 片段化,以适应高通量测序平台。
- 反转录为 cDNA:将 RNA 通过逆转录酶转录为互补 DNA(cDNA),这是因为 DNA 更稳定,且适合大多数测序平台。
- 建库和测序:对 cDNA 进行加接头和扩增,制备成测序文库,使用高通量测序仪(例如 Illumina)进行测序。
- 数据分析:将测序得到的短片段(reads)与参考基因组比对,进行定量分析以确定基因表达水平。常见的分析软件包括 STAR、HISAT2 和 DESeq2。
处理Bulk RNA-seq数据的基本流程
1.原始数据获取
2.质量控制(QC)
3.清理和剪切接头序列
根据质量控制结果,可以使用Trim Galore!或Cutadapt等工具去除低质量读数和接头序列。通常还需要去除过短的序列和低质量碱基。
trim_galore --paired HRR839864_S1_L001_R1_001.fastq HRR839864_S1_L001_R2_001.fastq
4.比对(Alignment)
使用STAR
或HISAT2
等比对工具将处理后的FASTQ文件与参考基因组进行比对。生成的输出文件通常是一个BAM或SAM文件,它们是排序过的比对结果。
hisat2 -x reference_genome -1 HRR839864_S1_L001_R1_001_trimmed.fastq -2 HRR839864_S1_L001_R2_001_trimmed.fastq -S output.sam
5.生成表达量矩阵
通过使用工具如featureCounts
或HTSeq
对比对好的BAM
文件进行计数,计算每个基因的read count,生成一个计数矩阵。每一行代表一个基因,每一列代表一个样本。
featureCounts -a reference.gtf -o counts.txt output_sorted.bam
annotations.gtf
文件是参考基因组的注释文件,aligned_sample.bam
是比对后的文件,gene_counts.txt
是生成的表达量矩阵文件。
6.数据标准化
为了消除测序深度差异,通常需要对计数矩阵进行标准化。常用的标准化方法包括:
TPM
(每百万转录本):计算转录本的长度校正后的表达量。FPKM
(每千碱基的片段数):用于比较相同样本中的不同基因。RPKM
(每千碱基的读数数):类似于FPKM,但适用于单端测序数据。
-DESeq2
或EdgeR
的归一化:用于差异表达分析,归一化为每个样本的size factors。
下面是一个大体代码流程,我们现在有HRR839864_S1_L001_R1_001.fastq.gz
和HRR839864_S1_L001_R2_001.fastq.gz
这俩数据举例子:
# 质量控制
fastqc HRR839864_S1_L001_R1_001.fastq.gz HRR839864_S1_L001_R2_001.fastq.gz
# 剪切低质量数据
trim_galore --paired HRR839864_S1_L001_R1_001.fastq.gz HRR839864_S1_L001_R2_001.fastq.gz
(做到了再用实际案例添加)
优劣性
优
- 无偏性:与微阵列不同,RNA-seq 不依赖预定义探针,因此可以检测到新的、未知的转录本。
- 高分辨率:RNA-seq 可以提供单碱基分辨率的信息,能够检测到基因的不同转录本、剪接变体以及单核苷酸变异。
- 灵活性:适用于多种 RNA 类型的研究,如 mRNA、miRNA、circRNA 等。
劣
- 平均化效应:由于 bulk RNA-seq 是对细胞群体的平均表达水平进行测量,无法区分不同细胞类型间的差异。如果样本中存在异质性细胞类型,可能会掩盖重要的细胞特异性表达信息。
- 样本复杂性:需要处理大量的测序数据,数据分析过程复杂,对计算资源要求较高。