Quiet
  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我

bajiu

  • 主页
  • 归档
  • 分类
  • 标签
  • 链接
  • 关于我
Quiet主题

SRA Toolkit 安装及使用

bajiu
生物信息学

2023-03-01 15:55:00

SRA Toolkit 是一套由 NCBI (National Center for Biotechnology Information) 开发的软件工具,用于从 SRA (Sequence Read Archive) 数据库下载和处理生物序列数据。

安装 SRA Toolkit

下载安装

# 下载
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

#解压
sudo tar -vxzf sratoolkit.tar.gz -C /opt/

设置环境变量

将sratoolkit路径添加到环境变量

export PATH=$PATH:/opt/sratoolkit.3.0.10-ubuntu64/bin
source 

验证

验证 shell 是否能找到二进制文件

which fastq-dump

基本使用

配置 SRA Toolkit

首次使用前,配置 SRA Toolkit 以确保数据下载和访问的正确性。使用 vdb-config

vdb-config -i

SRAToolkit_1

下载序列数据

使用 prefetch 命令下载 SRA 数据库中的序列数据。例如,下载 SRR 前缀的样本数据:

prefetch SRRXXXXXX

将 SRA 文件转换为其他格式

使用 fastq-dump 命令将 SRA 文件转换为更通用的 FASTQ 格式:

fastq-dump --split-files SRRXXXXXX

fastq-dump SRRXXXXXX --outdir /home/your_username/sra_data

这将为每个样本生成一个或多个 FASTQ 文件,--split-files 参数用于当样本包含成对的序列时分别处理。

使用 -v 或 -vv 选项查看更多日志输出

虽然这不会提供一个精确的进度条,但是通过增加日志的详细程度,您可以获得有关数据下载和处理进度的更多信息。-v 为更多日志,-vv 为非常详细的日志。

fastq-dump -v SRRXXXXXX

其他工具和命令

SRA Toolkit 还包括许多其他工具和命令,如 sam-dump(将 SRA 转换为 SAM 格式)、sra-stat(查看 SRA 文件的统计信息)等.

注意

记得调整目录结构,防止权限不足

sudo chmod 777 /desired/path
上一篇

对fastq进行质量控制检查

下一篇

TCR/BCR克隆形分析

©2024 By bajiu.