1000genome 데이터 다운 받는 법 with Aspera(ascp), Linux
1. linux용 IBM aspera connect 설치
https://www.ibm.com/aspera/connect/ 에 방문한 뒤cd ~wget https://d3gcli72yxqn2z.cloudfront.net/downloads/connect/latest/bin/ibm-aspera-connect_4.1.0.46_linux.tar.gztar -xvf ibm-aspera-connect_4.1.0.46_linux.sh.tar.gz./ibm-aspera-connect_4.1.0.46_linux.shexport PATH=$PATH:~/.aspera/connect/bin/echo 'export PATH=$PATH:~/.aspera/connect/bin/' >> ~/.bash_profile
22년도 열어보고 오랫만에 다시 데이터를 받으려했더니 뭐가 잘 안된다.
시스템이 바뀐듯,,github에 잘 나와있다.
다만, 설치하고 바로 linux에서 바로 ascp 명령어 사용하면 잘 안된다.
-> 방화벽을 확인해보자. chatGPT한테 물어보자 파일 권한을 수정해야되는거라 슈도 권한이 필요할 수 있다.
https://github.com/aertslab/install_aspera_connect
GitHub - aertslab/install_aspera_connect: Install latest version of Aspera Connect and show example how to use it for downloadin
Install latest version of Aspera Connect and show example how to use it for downloading sequening data. - aertslab/install_aspera_connect
github.com
2. 원하는 1000genome sample의 ftp 주소를 이용해 다운로드
ascp -QT -l 300m -P 33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:[ftp 주소] [output_dir]
ex.
ascp -QT -l 300m -P 33001 -k 1 -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/run/ERR324/ERR3242519/HG00631.final.cram [output_dir]
ascp option description : https://ena-docs.readthedocs.io/en/latest/retrieval/file-download.html#using-aspera
How to Download Data Files — ENA Training Modules 1 documentation
Downloading a large number of records If your search criteria is returning a large number of records (e.g.millions) then please consider using a non-browser client (like wget or curl). NOTE: You need to include the additional parameter “limit=0” to obt
ena-docs.readthedocs.io
ERROR 1) Private key file not found
-> private key path 를 제대로 넣어줬는지 확인 필요, ~/.aspera/connect/etc/asperaweb_id_dsa.openssh 가 있어야 함
-> aspera 4.2 버전 이상으로 openssh 파일이 없음, 버전을 4.1 이하로 다운 받아서 수행
ERROR 2) Error: Session data transfer timeout (server)
-> -k 1 은 중단되더라도 이어서 다운 받는 옵션이다. -k2 로 수정하여 다시 처음부터 다운 받도록 실행해준다.
-> 그럼에도 안되면 http://betascience.blogspot.com/2010/02/using-aspera-instead-of-ftp-to-download.html 참고
ERROR 3) Client unable to connect to server (check UDP port and firewall ))
-> https://www.ibm.com/support/pages/errors-15-and-1112-udp-ports#troubleshooting
ERROR 4) Peer aborted session, Disk read failed
-> https://www.ibm.com/support/pages/error-3919-peer-aborted-session
->