SRA Toolkit 安装及使用
SRA Toolkit 是一套由 NCBI (National Center for Biotechnology Information) 开发的软件工具,用于从 SRA (Sequence Read Archive) 数据库下载和处理生物序列数据。
安装 SRA Toolkit
下载安装
# 下载
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
#解压
sudo tar -vxzf sratoolkit.tar.gz -C /opt/
设置环境变量
将sratoolkit路径添加到环境变量
export PATH=$PATH:/opt/sratoolkit.3.0.10-ubuntu64/bin
source
验证
验证 shell 是否能找到二进制文件
which fastq-dump
基本使用
配置 SRA Toolkit
首次使用前,配置 SRA Toolkit 以确保数据下载和访问的正确性。使用 vdb-config
vdb-config -i

下载序列数据
使用 prefetch 命令下载 SRA 数据库中的序列数据。例如,下载 SRR 前缀的样本数据:
prefetch SRRXXXXXX
将 SRA 文件转换为其他格式
使用 fastq-dump 命令将 SRA 文件转换为更通用的 FASTQ 格式:
fastq-dump --split-files SRRXXXXXX
fastq-dump SRRXXXXXX --outdir /home/your_username/sra_data
这将为每个样本生成一个或多个 FASTQ 文件,--split-files 参数用于当样本包含成对的序列时分别处理。
使用 -v 或 -vv 选项查看更多日志输出
虽然这不会提供一个精确的进度条,但是通过增加日志的详细程度,您可以获得有关数据下载和处理进度的更多信息。-v 为更多日志,-vv 为非常详细的日志。
fastq-dump -v SRRXXXXXX
其他工具和命令
SRA Toolkit 还包括许多其他工具和命令,如 sam-dump(将 SRA 转换为 SAM 格式)、sra-stat(查看 SRA 文件的统计信息)等.
注意
记得调整目录结构,防止权限不足
sudo chmod 777 /desired/path