全長轉錄組研究是理解生物機體功能的一個重要途徑。傳統(tǒng)二代轉錄組測序無法直接獲得單個RNA分子由5ˊ到3ˊ的全部序列?;赑acBio三代測序平臺的轉錄組研究,無需打斷,直接讀取反轉錄的全長cDNA,能夠有效的獲取高質(zhì)量的單個RNA分子的全部序列,準確辨別二代測序無法識別的同源異構體(isoform)、同源基因、超家族基因或等位基因表達的轉錄本。
CCS數(shù)據(jù)展示
PacBio測序儀每個cell含有ZMWs,reads進入ZMW孔中被測序,一個ZMW中含一條的reads(P1)為有效數(shù)據(jù)。通過有效數(shù)據(jù)的子序列獲得一致序列即為每個單分子測序反應器ZMW的CCS序列。CCS序列是每個單分子測序反應器ZMW里插入序列的最高質(zhì)量序列。CCS序列可以從一定程度上評估建庫質(zhì)量和SMRT? Cell上樣時序列的長度。
全長轉錄本數(shù)目統(tǒng)計
通過檢測CCS序列中是否包含正確的5’引物,3’引物及polyA尾,將序列分成全長序列(包含5’引物,3’引物及polyA尾)和非全長序列。去除CCS序列中cDNA 引物序列及polyA序列獲得建庫時的插入序列,同時根據(jù)建庫時兩端引物的差別確定鏈合成方向,將序列分為全長序列和非全長序列、嵌合序列和非嵌合序列。全長序列長度反映了建庫時cDNA序列長度,可通過統(tǒng)計全長序列的長度評估建庫質(zhì)量。
轉錄本GO注釋
GO數(shù)據(jù)庫是GO組織(Gene Ontology Consortium)于2000年構建的一個結構化的標準生物學注釋系統(tǒng),旨在建立基因及其產(chǎn)物知識的標準詞匯體系,適用于各個物種。GO注釋系統(tǒng)是一個有向無環(huán)圖,包含三個主要分支,即:生物學過程(Biological Process),分子功能(Molecular Function)和細胞組分(Cellular Component)。
可變剪接分析
基因轉錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產(chǎn)生不同的成熟mRNA,從而翻譯為不同的蛋白質(zhì),構成生物性狀的多樣性。這種轉錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternative splicing)??勺兗艚宇愋桶ǎ?A) 外顯子跳躍;(B) 可變轉錄終止位點;(C) 可變外顯子;(D) 可變轉錄起始位點;(E) 內(nèi)含子保留。百邁客使用Astalavista軟件獲取每個樣品存在的可變剪接類型。結合RNA-Seq數(shù)據(jù)可以使用rMATS進行不同分組間的差異可變剪接分析。
轉錄本NR注釋
Nr數(shù)據(jù)庫是NCBI中的非冗余蛋白質(zhì)數(shù)據(jù)庫,包含了Swissprot、PIR(Protein Information Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白質(zhì)數(shù)據(jù)庫及從GenBank和RefSeq的CDS數(shù)據(jù)翻譯過來的蛋白質(zhì)數(shù)據(jù)信息。通過序列比對尋找同源物種,并進行注釋。
轉錄本KEGG注釋
在生物體內(nèi),不同的基因產(chǎn)物相互協(xié)調(diào)來行使生物學功能,對表達基因的通路(Pathway)注釋分析有助于進一步解讀基因的功能。KEGG(Kyoto Encyclopedia of Genes and Genomes)是系統(tǒng)分析基因功能、基因組信息數(shù)據(jù)庫,它有助于研究者把基因及表達信息作為一個整體網(wǎng)絡進行研究。
可變多聚腺苷酸化
多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價鏈結。在蛋白質(zhì)生物合成的過程中,這是產(chǎn)生準備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護mRNA,免受核酸外切酶攻擊,并且對轉錄終結、將mRNA從細胞核輸出及進行翻譯都十分重要。在原核生物中,前體mRNA的可變多聚腺苷酸化(alternative polyadenylation,APA)可能貢獻于轉錄組多樣性,基因組的編碼能力以及基因的調(diào)控機制。百邁客采用TAPIS pipeline來對全長非嵌合序列(FLNC)進一步分析以識別APA。
成功案例
答:1)Polymerase Read:酶聚合序列,DNA聚合酶以SMRTbell?環(huán)狀模板鏈合成的核酸序列,可用于測序過程中每輪(run)的質(zhì)控。Polymerase reads經(jīng)過濾后僅剩余高質(zhì)量片段,包含接頭序列和通過環(huán)狀模板鏈合成的含多個序列的拷貝。
(2)Subread:每個聚合酶序列(polymerase read)可以分割成一個或多個子序列(Subread),subread是聚合酶以SMRTbell? 一條模板鏈經(jīng)過一輪(passes)合成的,不包括接頭序列。每個subread包含質(zhì)量值和相關酶活參數(shù)。
(3)number of full passes:指原始序列中存在兩端均含有SMRTbell? 接頭(adapter,圖中黑色區(qū)域)的子序列(接頭間的序列)個數(shù)。
(4)Circular Consensus (CCS) Read:根據(jù)需求篩選原始序列中滿足最小full pass數(shù)為 1,最低序列準確度為 0.9 的原始序列,通過子序列獲得一致序列即為每個單分子測序反應器ZMW的CCS序列。CCS序列是每個單分子測序反應器ZMW里插入序列的最高質(zhì)量序列。CCS序列可以從一定程度上評估建庫質(zhì)量和SMRT? Cell上樣時序列的長度。
(5)Full-Length (FL) Read versus Non-Full-Length (nFL) Read:定義兩端同時含有3’引物和5’引物,及3’引物前含有polyA尾(可選)的序列稱為全長序列(Full-Length(FL) Read)。 5’或3′ primer 可以是Clontech或其他全長cDNA建庫引物,或基因特異性的RT-PCR引物。反之,則為非全長序列(non-full-lengthread)。
(6)Full-Length non-chimericRead (FLNC):建庫過程中因接頭濃度或SMRTbell濃度過低造成兩個cDNA模板鏈直接相連而生成的嵌合序列稱為人工嵌合序列,如下圖所示。全長序列中的非嵌合序列稱為全長非嵌合序列。
答:PacBio全長轉錄組由于單cell產(chǎn)出有限,所以無法完成基因定量,需要結合二代轉錄組(RNA-seq)的數(shù)據(jù)聯(lián)合分析,才可以進行基因水平和轉錄本水平的定量,通??梢赃x擇全長轉錄組2+3的聯(lián)合分析產(chǎn)品進行分析。
答:
1、無需打斷,可直接獲得從5’端到3’端的全長轉錄本序列
2、轉錄本序列準確性高,連續(xù)性、完整性更好
3、準確鑒定轉錄本水平的結構變異,如可變剪接、融合基因等
4、結合二代轉錄組測序,同時完成基因水平和轉錄本水平的準確定量
5、物種適應性高,有無參考基因組均可以進行分析