SRA Toolkit 安装及使用

SRA Toolkit 是一套由 NCBI (National Center for Biotechnology Information) 开发的软件工具，用于从 SRA (Sequence Read Archive) 数据库下载和处理生物序列数据。

安装 SRA Toolkit

下载安装

# 下载
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

#解压
sudo tar -vxzf sratoolkit.tar.gz -C /opt/

设置环境变量

将sratoolkit路径添加到环境变量

export PATH=$PATH:/opt/sratoolkit.3.0.10-ubuntu64/bin
source

验证

验证 shell 是否能找到二进制文件

which fastq-dump

基本使用

配置 SRA Toolkit

首次使用前，配置 SRA Toolkit 以确保数据下载和访问的正确性。使用 vdb-config

vdb-config -i

SRAToolkit_1

下载序列数据

使用 prefetch 命令下载 SRA 数据库中的序列数据。例如，下载 SRR 前缀的样本数据:

prefetch SRRXXXXXX

将 SRA 文件转换为其他格式

使用 fastq-dump 命令将 SRA 文件转换为更通用的 FASTQ 格式：

fastq-dump --split-files SRRXXXXXX

fastq-dump SRRXXXXXX --outdir /home/your_username/sra_data

这将为每个样本生成一个或多个 FASTQ 文件，--split-files 参数用于当样本包含成对的序列时分别处理。

使用 -v 或 -vv 选项查看更多日志输出

虽然这不会提供一个精确的进度条，但是通过增加日志的详细程度，您可以获得有关数据下载和处理进度的更多信息。-v 为更多日志，-vv 为非常详细的日志。

fastq-dump -v SRRXXXXXX

其他工具和命令

SRA Toolkit 还包括许多其他工具和命令，如 sam-dump（将 SRA 转换为 SAM 格式）、sra-stat（查看 SRA 文件的统计信息）等.

注意

记得调整目录结构，防止权限不足

sudo chmod 777 /desired/path

bajiu