Bioinfomatics

1000genome 데이터 다운 받는 법 with Aspera(ascp), Linux

한거루 2022. 10. 21. 18:02

1.  linux용 IBM aspera connect 설치

22년도 열어보고 오랫만에 다시 데이터를 받으려했더니 뭐가 잘 안된다.

시스템이 바뀐듯,,github에 잘 나와있다.

다만, 설치하고 바로 linux에서 바로 ascp 명령어 사용하면 잘 안된다.

-> 방화벽을 확인해보자. chatGPT한테 물어보자 파일 권한을 수정해야되는거라 슈도 권한이 필요할 수 있다.

 

https://github.com/aertslab/install_aspera_connect

 

GitHub - aertslab/install_aspera_connect: Install latest version of Aspera Connect and show example how to use it for downloadin

Install latest version of Aspera Connect and show example how to use it for downloading sequening data. - aertslab/install_aspera_connect

github.com

 

2. 원하는 1000genome sample의 ftp 주소를 이용해 다운로드

ascp -QT -l 300m -P 33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:[ftp 주소] [output_dir]

 

ex.

ascp -QT -l 300m -P 33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR324/ERR3242519/HG00631.final.cram [output_dir]

 

ascp option description : https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#using-aspera

 

How to Download Data Files — ENA Training Modules 1 documentation

Downloading a large number of records If your search criteria is returning a large number of records (e.g.millions) then please consider using a non-browser client (like wget or curl). NOTE: You need to include the additional parameter “limit=0” to obt

ena-docs.readthedocs.io

 

 

ERROR 1) Private key file not found

-> private key path 를 제대로 넣어줬는지 확인 필요, ~/.aspera/connect/etc/asperaweb_id_dsa.openssh 가 있어야 함

-> aspera 4.2 버전 이상으로 openssh 파일이 없음, 버전을 4.1 이하로 다운 받아서 수행

 

 

ERROR 2) Error: Session data transfer timeout (server)

-> -k 1 은 중단되더라도 이어서 다운 받는 옵션이다. -k2 로 수정하여 다시 처음부터 다운 받도록 실행해준다.

-> 그럼에도 안되면 http://betascience.blogspot.com/2010/02/using-aspera-instead-of-ftp-to-download.html 참고

 

ERROR 3) Client unable to connect to server (check UDP port and firewall ))

-> https://www.ibm.com/support/pages/errors-15-and-1112-udp-ports#troubleshooting

 

ERROR 4) Peer aborted session, Disk read failed

-> https://www.ibm.com/support/pages/error-3919-peer-aborted-session

->