男女激烈吃奶动态图gif,99久久婷婷国产综合精品电影,国产睡熟迷奷白丝护士系列精品,国产高清无码免费视频,亚洲熟妇AV一区二区三区软件

 分類: 醫(yī)學研究
對于從事生物生信分析的人員來說,NCBI的重要性不必多說,而GEO(Gene Expression Omnibus database)是NCBI負責維護的一個數據庫,收集了大量表達譜、甲基化、LncRNA、miRNA、拷貝數變異(CNV)等各種芯片數據,并且還存儲了一些二代數據和其他高通量測序數據。相信【實用帖】手把手教你如何上傳GEO數據庫已經為您解決數據上傳的問題,那么今天小編繼續(xù)帶您玩轉GEO數據下載,充分挖掘GEO數據庫的價值,讓GEO數據庫成為您的研究數據后花園。

GEO數據庫可以分為以下類型:a)?GEO Platform (GPL) 芯片平臺
b)?GEO Sample (GSM) 樣本ID號
c)?GEO Series (GSE) study的ID號
d)?GEO Dataset (GDS) 數據集的ID號這些數據均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)進行下載。

一般我們在文章中看到的都是GSE的ID,那我們如何通過GSE的ID進行數據的下載呢,下面就讓小編手把手教您如何進行GEO數據的下載。

咱們以下面篇文章為例:

我們在文末找到作者數據上傳地址和GSE的ID

然后在GEO官網輸入GSE115354,

首先我們可以看到是關于該study的描述信息,包括文章信息、測序物種、實驗類型等等

而我們最關心的東西在頁面的下方

如果我們想下載作者標準化后的數據,可以直接在這個頁面中Supplementary file中進行下載,那如果我想下載原始數據怎么辦呢,不要著急,您慢慢往下看。

我們點擊頁面中Sample對應的GSM的ID,每個樣本都對一個GSM,我們以第一個為例,點擊后進入以下界面

然后點擊最下方SRA編號,進入下面的頁面這里面包含了這個樣本的基本信息,包括測序平臺、文庫類型、數據量等基本信息,然后點擊頁面右上方的Send to按鈕,選擇File,F(xiàn)ormat選擇RunInfo,然后點擊Creat file下載一個csv文件,打開文件,可以看到一個下載鏈接

點擊鏈接就可以直接下載數據了。

下載完成后您可能有些疑問,我們一般測序數據都輸pair-end的雙端reads,為什么我下載的是一個.sra結尾的數據呢?難道是一個單端數據嗎?這個當然不是,SRA為了節(jié)省空間,一般上傳的數據都是.sra的壓縮文件,那我們如何將sra文件轉化成常用的雙端數據呢?這里就要用到SRA提供的一個工具:fastq-dump,

下載網址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

官方說明文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump

當然,這個軟件需要在Linux系統(tǒng)下進行操作,命令行如下:

fastq-dump?*.sra?--split-3

這里的–split-3會把原來雙端拆分成兩個文件,但是原來單端并不會保存成兩個文件。運行完成后就能獲得了您想要的原始數據了。如果您還想學習更多實用的高通量測序數據挖掘和分析的知識,歡迎點擊下方按鈕聯(lián)系我們。

立即咨詢
最近文章