下载dbgap数据
介绍如何下载dbGAP数据库需要申请的数据。
一、下载步骤
使用NCBI的SRA toolkit中的prefetch
命令行功能和cart
文件或者SRA accession
进行下载。cart帮助批量下载数据,SRA accession帮助单独下载数据。
1. 下载并安装Aspera connect
Aspera:一个高速文件传输系统,方便下载数据。
下载链接:https://downloads.asperasoft.com/en/downloads/8?list
确保安装的是connect
2. 选择并保存数据信息在cart
文件中
除了cart文件,也可以根据SRA accession下载
-
登录dbgap
-
点击My Requests,查看批准的请求
确保已经获得批准
- 查看request file
选择dbGap file selctor下载基因型和表型数据
选择SRA RUN selector下载SRA数据
- 选择数据并下载Cart文件
3. 使用prefetch进行数据下载
SRA Toolkit版本低于2.10.2时,需要在此步骤之前增加使用dbGaP repository key进行编译步骤,在通过编译产生的 dbGaP project directory
目录下进行后续操作。
3.1 找到密钥
- dbGaP repository key文件包括了SRA Toolkit所需要用来确定申请人和dbga数据所属项目的信息,那么如何下载dbGaP repository key呢?
在action位置找到对应的批准的数据对应的project的get dbGap repository key
,下载得到.ngc
格式的文件。
3.2 表型数据
运行prefetch命令下载:
prefetch --ngc your_file.ngc --cart cart_prj#####_###.krt
使用nohup和末尾的&后台运行,-X 99999999 是下载大小限制
nohup prefetch -X 9999999999999 --ngc your_file.ngc --cart cart_prj#####_###.krt &
表型数据需要解密,下载下来的表型数据后缀是.ncbi.enc
,进行解密:
$ vdb-decrypt --ngc your_file.ngc ~/ncbi/dbGaP-26086/files/ # 整个表型数据存放的文件夹进行解密
解密完成之后,文件的后缀ncbi_enc不见了。
3.3 数据
cart文件或SRA accession下载
- cart文件
prefetch --ngc your_file.ngc --cart ###.krt
- SRA accession
prefetch --ngc your_file.ngc SRR1234567
如果部分sra文件下载失败,提取下载失败的SRRXXX名字,放入一个新的文件中,对这个新的文件进行prefetch下载。