Quiet
  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我

bajiu

  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我
Quiet主题

转录组测序(bulk RNA-Seq)上游数据处理(未完成)

bajiu
生物信息学

2023-10-18 22:45:00

背景

Bulk RNA-seq (RNA sequencing) 是一种广泛使用的技术,用于研究细胞或组织样本中的总 RNA 表达情况。它可以帮助科学家定量分析样本中不同基因的表达水平,并了解基因在不同条件下的差异性表达。Bulk RNA-seq 和single cell RNA-seq的最主要区别在于单细胞测序代表单个细胞(single cell),而bulk测序代表一群细胞(a population of cells)。

原理

在 bulk RNA-seq 中,RNA 是从一个混合细胞群体(例如组织、培养细胞)中提取的。这意味着测序得到的数据是该细胞群体中所有细胞的平均表达情况,而不是单个细胞的表达水平。这种方法的步骤通常包括以下几个环节:

  1. RNA 提取:从样本中提取总 RNA,通常只保留 mRNA。
  2. RNA 片段化:将提取的 RNA 片段化,以适应高通量测序平台。
  3. 反转录为 cDNA:将 RNA 通过逆转录酶转录为互补 DNA(cDNA),这是因为 DNA 更稳定,且适合大多数测序平台。
  4. 建库和测序:对 cDNA 进行加接头和扩增,制备成测序文库,使用高通量测序仪(例如 Illumina)进行测序。
  5. 数据分析:将测序得到的短片段(reads)与参考基因组比对,进行定量分析以确定基因表达水平。常见的分析软件包括 STAR、HISAT2 和 DESeq2。

处理Bulk RNA-seq数据的基本流程

1.原始数据获取

2.质量控制(QC)

3.清理和剪切接头序列
根据质量控制结果,可以使用Trim Galore!或Cutadapt等工具去除低质量读数和接头序列。通常还需要去除过短的序列和低质量碱基。

trim_galore --paired HRR839864_S1_L001_R1_001.fastq HRR839864_S1_L001_R2_001.fastq

4.比对(Alignment)

使用STAR或HISAT2等比对工具将处理后的FASTQ文件与参考基因组进行比对。生成的输出文件通常是一个BAM或SAM文件,它们是排序过的比对结果。

hisat2 -x reference_genome -1 HRR839864_S1_L001_R1_001_trimmed.fastq -2 HRR839864_S1_L001_R2_001_trimmed.fastq -S output.sam

5.生成表达量矩阵
通过使用工具如featureCounts或HTSeq对比对好的BAM文件进行计数,计算每个基因的read count,生成一个计数矩阵。每一行代表一个基因,每一列代表一个样本。

featureCounts -a reference.gtf -o counts.txt output_sorted.bam

annotations.gtf文件是参考基因组的注释文件,aligned_sample.bam是比对后的文件,gene_counts.txt是生成的表达量矩阵文件。

6.数据标准化

为了消除测序深度差异,通常需要对计数矩阵进行标准化。常用的标准化方法包括:

  • TPM(每百万转录本):计算转录本的长度校正后的表达量。
  • FPKM(每千碱基的片段数):用于比较相同样本中的不同基因。
  • RPKM(每千碱基的读数数):类似于FPKM,但适用于单端测序数据。
    - DESeq2 或 EdgeR的归一化:用于差异表达分析,归一化为每个样本的size factors。

下面是一个大体代码流程,我们现在有HRR839864_S1_L001_R1_001.fastq.gz和HRR839864_S1_L001_R2_001.fastq.gz这俩数据举例子:

# 质量控制
fastqc HRR839864_S1_L001_R1_001.fastq.gz HRR839864_S1_L001_R2_001.fastq.gz

# 剪切低质量数据
trim_galore --paired HRR839864_S1_L001_R1_001.fastq.gz HRR839864_S1_L001_R2_001.fastq.gz


(做到了再用实际案例添加)

优劣性

优

  • 无偏性:与微阵列不同,RNA-seq 不依赖预定义探针,因此可以检测到新的、未知的转录本。
  • 高分辨率:RNA-seq 可以提供单碱基分辨率的信息,能够检测到基因的不同转录本、剪接变体以及单核苷酸变异。
  • 灵活性:适用于多种 RNA 类型的研究,如 mRNA、miRNA、circRNA 等。

劣

  • 平均化效应:由于 bulk RNA-seq 是对细胞群体的平均表达水平进行测量,无法区分不同细胞类型间的差异。如果样本中存在异质性细胞类型,可能会掩盖重要的细胞特异性表达信息。
  • 样本复杂性:需要处理大量的测序数据,数据分析过程复杂,对计算资源要求较高。
上一篇

Prism8简介

下一篇

RNA的基本介绍

©2025 By bajiu.