SRA Toolkit 安装及使用
SRA Toolkit
是一套由 NCBI (National Center for Biotechnology Information) 开发的软件工具,用于从 SRA (Sequence Read Archive) 数据库下载和处理生物序列数据。
安装 SRA Toolkit
下载安装
# 下载
wget --output-document sratoolkit.tar.gz https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz
#解压
sudo tar -vxzf sratoolkit.tar.gz -C /opt/
设置环境变量
将sratoolkit
路径添加到环境变量
export PATH=$PATH:/opt/sratoolkit.3.0.10-ubuntu64/bin
source
验证
验证 shell 是否能找到二进制文件
which fastq-dump
基本使用
配置 SRA Toolkit
首次使用前,配置 SRA Toolkit
以确保数据下载和访问的正确性。使用 vdb-config
vdb-config -i
下载序列数据
使用 prefetch
命令下载 SRA 数据库中的序列数据。例如,下载 SRR
前缀的样本数据:
prefetch SRRXXXXXX
将 SRA 文件转换为其他格式
使用 fastq-dump
命令将 SRA
文件转换为更通用的 FASTQ
格式:
fastq-dump --split-files SRRXXXXXX
fastq-dump SRRXXXXXX --outdir /home/your_username/sra_data
这将为每个样本生成一个或多个 FASTQ
文件,--split-files
参数用于当样本包含成对的序列时分别处理。
使用 -v 或 -vv 选项查看更多日志输出
虽然这不会提供一个精确的进度条,但是通过增加日志的详细程度,您可以获得有关数据下载和处理进度的更多信息。-v
为更多日志,-vv
为非常详细的日志。
fastq-dump -v SRRXXXXXX
其他工具和命令
SRA Toolkit
还包括许多其他工具和命令,如 sam-dump
(将 SRA 转换为 SAM 格式)、sra-stat
(查看 SRA 文件的统计信息)等.
注意
记得调整目录结构,防止权限不足
sudo chmod 777 /desired/path