下载dbgap数据

介绍如何下载dbGAP数据库需要申请的数据。


一、下载步骤

使用NCBI的SRA toolkit中的prefetch命令行功能和cart文件或者SRA accession进行下载。cart帮助批量下载数据,SRA accession帮助单独下载数据。

1. 下载并安装Aspera connect

Aspera:一个高速文件传输系统,方便下载数据。

下载链接https://downloads.asperasoft.com/en/downloads/8?list

确保安装的是connect

2. 选择并保存数据信息在cart文件中

除了cart文件,也可以根据SRA accession下载

  • 登录dbgap

  • 点击My Requests,查看批准的请求

确保已经获得批准

  • 查看request file

选择dbGap file selctor下载基因型和表型数据

选择SRA RUN selector下载SRA数据

  • 选择数据并下载Cart文件

3. 使用prefetch进行数据下载

SRA Toolkit版本低于2.10.2时,需要在此步骤之前增加使用dbGaP repository key进行编译步骤,在通过编译产生的 dbGaP project directory目录下进行后续操作。

3.1 找到密钥
  • dbGaP repository key文件包括了SRA Toolkit所需要用来确定申请人和dbga数据所属项目的信息,那么如何下载dbGaP repository key呢?

在action位置找到对应的批准的数据对应的project的get dbGap repository key,下载得到.ngc格式的文件。

3.2 表型数据

运行prefetch命令下载:

prefetch --ngc your_file.ngc --cart cart_prj#####_###.krt

使用nohup和末尾的&后台运行,-X 99999999 是下载大小限制

nohup prefetch -X 9999999999999 --ngc your_file.ngc --cart cart_prj#####_###.krt &

表型数据需要解密,下载下来的表型数据后缀是.ncbi.enc,进行解密:

$ vdb-decrypt --ngc your_file.ngc ~/ncbi/dbGaP-26086/files/ # 整个表型数据存放的文件夹进行解密

解密完成之后,文件的后缀ncbi_enc不见了。

3.3 数据

cart文件或SRA accession下载

  • cart文件
prefetch --ngc your_file.ngc --cart ###.krt
  • SRA accession
prefetch --ngc your_file.ngc SRR1234567

如果部分sra文件下载失败,提取下载失败的SRRXXX名字,放入一个新的文件中,对这个新的文件进行prefetch下载。

参考资料

comments powered by Disqus