DEIso
Home
Search
Search1
Search2
Search3
Download
Help
Contact
研究動機
將癌症清楚的分期不但可以獲得更清楚的病理資訊還可以提高治療效率降低不必要的風險,而ISOexpresso資料庫只有將資料區分成正常與癌症兩種類別,並沒有將癌症以期別細分,若我們想知道基因或基因同種型在癌症不同期別之間的差異表現,在ISOexpresso是無法得到的。在ISOexpresso資料庫中,搜尋功能主要分為兩種模式,查看正常與癌症的差異表現與查看正常或癌症的表現量,在查看差異表現的搜尋模式中,ISOexpresso只提供使用者查詢單一基因或是基因同種型在正常與癌症狀態的差異表現,在查看表現量的模式中,使用者只能選取正常或癌症單一狀態,並不能同時查看正常與癌症的表現量。我們認為ISOexpresso有能夠再增強的地方,包括將癌症分期、更新人類參考基因組Hg19至Hg38版本與提供更全面的搜尋功能,因此我們有了建立資料庫的想法。
pre-mRNA經過轉錄後的剪接機制會產生不同的基因同種型,而不同的基因同種型可能在基因中具有不同的調控功能,因此針對基因同種型層次的分析可以比基因層次更為精確且直接,若我們想知道基因同種型在癌症不同期別之間的差異表現,在UALCAN是無法得到的,我們認為基因同種型層次的分析非常重要,因此我們想建立一個能夠查詢基因層次與基因同種型層次的資料庫。
綜合ISOexpresso與UALCAN的優點及我們的想法,我們想建立一個提供使用者查詢各癌症期別資料與差異表現、提供基因層次與基因同種型層次分析與豐富查詢功能的資料庫,且希望設計三種搜尋模式供使用者使用。在第一種搜尋模式中,提供符合使用者參數設定的候選基因或基因同種型列表,而使用者再從候選列表挑選有興趣的基因或基因同種型查看詳細數據,這個功能可以幫助使用者產生可能感興趣的基因或基因同種型。在第二種搜尋模式中,我們希望能提供使用者查詢單一基因或基因同種型具有差異表現的狀態組合(例如: 正常與癌症一期)列表,這將會幫助使用者在未知狀態下檢驗基因或基因同種型是否差異表現。第三種搜尋模式中,我們希望能提供使用者同時查看基因或基因同種型在正常與癌症各期別的表現量,以及對基因或基因同種型進行病患存活分析。
資料收集
我們的資料庫所有的資料收錄自三個不同的生物資訊平台,自NCBI (National Center for Biotechnology Information)收錄了基因與基因同種型的簡介資料,自USCS(University of California Santa Cruz)收錄參考基因組資料,自GDC(Genomic Data Commons)收錄TCGA比對後序列,而每種資料在資料庫中皆具有不同的功能,以下將詳細說明各資料的用途。
人類參考基因組資料
序列與參考基因組的比對通常是許多次世代定序數據分析的第一步,當用參考基因組研究生物體時,可以透過將序列比對到參考基因組或參考轉錄組來推斷哪些基因同種型具有表現,我們的資料庫採用USCS(University of California Santa Cruz)整理的人類染色體第38版本(hg38/GRCh38)當作參考基因組,而GDC也是採用hg38當作參考基因組,如此一來可以直接採用GDC比對到參考序列的資料進行下一步的分析。此外,我們的資料庫提供的基因同種型結構圖的相關資料也是由hg38中的註解檔(.gtf)擷取,包括外顯子區域與編碼序列區域。
人類基因與基因同種型簡介資料
為了使生物學家能在此資料庫搜尋功能中,快速與初步的了解基因與基因同種型以便於下一步分析,我們自NCBI (National Center for Biotechnology Information)中的Reference Sequence Database與GenBank收錄了60519筆人類基因與65476筆基因同種型的基本資訊。
TCGA Aligned BAM
GDC收錄來自TCGA DCC的BAM檔,利用模組化的流程將所有資料進行統一化後,提供給世界各地的研究單位下載,我們的資料庫收錄GDC統一化後的519筆結腸癌與176筆直腸癌比對後序列資料,資料量約4TB,經過2.3.1的分類後利用Cufflinks進行分析以建立我們的資料庫。
TCGA檔案資訊清單
為了將比對後序列資料正確的分類成正常類別(Solid Tissue Normal)與癌症類別(Primary Tumor),我們自GDC收錄了TCGA中結腸癌519筆與直腸癌176筆檔案資訊清單,清單中記錄包括檔案名稱、檔案所對應的病人代號、樣本型態(正常或癌症)等。
TCGA病人臨床資料
TCGA檔案資訊清單只能將比對後序列資料初步的分類成正常類別與癌症類別,若需要更進一步地將癌症以期別分類,則需要病人的臨床資料,故我們自GDC收錄了TCGA中結腸癌459筆與直腸癌166筆病人的臨床資料,臨床資料中記錄病患的癌症期別、存活時間、存活狀態、身高、體重、性別等特徵。
資料處理
資料庫介面
我們的資料庫提供三種搜尋模式供使用者使用。在第一種搜尋模式中,提供符合使用者參數設定的候選基因或基因同種型列表,而使用者再從候選列表挑選有興趣的基因或基因同種型查看詳細數據,這個功能可以幫助使用者產生可能感興趣的基因或基因同種型。在第二種搜尋模式中,我們提供使用者查詢單一基因或基因同種型具有差異表現的狀態組合列表,這將會幫助使用者在未知狀態下檢驗基因或基因同種型是否差異表現。第三種搜尋模式中,我們提供使用者同時查看基因或基因同種型在正常與癌症各期別的表現量,與此基因對於病患的存活分析,這會幫助使用者了解基因表現量影響病患存活時間的程度。
搜尋功能(i)
在搜尋功能(i)中,提供使用者參篩選出符合數設定的候選基因或基因同種型列表 ,再從候選列表挑選有興趣的基因或基因同種型查看詳細數據,這個功能可以幫助使用者產生可能感興趣的基因或基因同種型,並提供視覺化圖示使搜尋結果更直覺化。我們將查詢功能分成四個步驟,分別是癌症部位(Primary site)、癌症狀態(Condition)、差異表現層次(Differential expression level)與篩選器(Filter)。第一步,使用者須透過下拉式選單選擇癌症部位,由於各癌症對應的期別均不相同,一旦使用者選擇癌症部位後,狀態一(Condition1)選單會即時搜尋對應的所有期別。第二步,使用者即可在狀態一與狀態二選擇欲查詢差異表現的癌症期別,而狀態一與狀態二的狀態順序與篩選器的數值設定有直接的關係。在第三步差異表現層次,使用者須選擇要篩選的是基因層次或是基因同種型層次。最後,我們提供兩種篩選器給使用者自行定義基因或基因同種型的篩選條件。第一個篩選器為倍率變化(Fold Change),第二個篩選器為假設檢定(Hypothesis Test),其中包括KS test (Kolmogorov-Smirnov test)、T test (Student's T test)與U test (Mann-Whitney U test),完成以上步驟後按下搜尋按鈕即完成查詢。
搜尋功能(i)的結果頁面包含篩選器參數設定表格、差異表現表格與熱區圖。篩選器參數設定表格提供使用者查看先前的參數設定,可以更方便的與結果進行檢驗。差異表現表格是以篩選器設定的參數,至資料庫中搜尋選取狀態對應的Cuffdiff輸出結果進行篩選,篩選出來的基因或基因同種型即為符合篩選器設定的候選清單,表格中的資訊包括基因或基因同種型名稱、狀態一平均FPKM、狀態二平均FPKM、狀態一與狀態二的FPKM倍率變化、假設檢定數值與詳細資訊,使用者可點擊基因或基因同種型名稱連結到NCBI簡介頁面,或於有興趣的基因或基因同種型點擊“Detail”進入Detail頁面查看更詳細的資訊,表格提供欄位排序、切換欄位數量、即時搜尋與下載目前表格及參數設定的功能。熱區圖以不同顏色代表表現量的高低,提供使用者更視覺化且更直覺的差異表現,圖中左半面為使用者選取狀態一中的所有病患,右半面為狀態二中的所有病患,圖上每一點代表log
2
(FPKM+1),可對應至由低表現(藍色)至高表現(紅色)不同的顏色,當滑鼠移動到熱區圖上可以看到基因名稱、狀態與log
2
(FPKM+1)數值,熱區圖右上角的工具列提供下載、放大、移動座標等功能。差異表現表格與熱區圖具有互相連動的功能,當差異表現表格進行排序或換頁時,熱區圖也換動態的進行排序或換頁,反之,當熱區圖進行換頁時,差異表現表格也會動態進行換頁。
進入Detail頁面後,不論使用者所點選的是基因或基因同種型,我們皆提供基因與該基因所有基因同種型的各種資訊,若點選基因,我們在Detail頁面中將基因進行螢光標記,若點選基因同種型,我們在Detail頁面中將基因同種型進行螢光標記,並直接將頁面滑動至頁面下半部基因同種型結果。Detail頁面中提供包括基因與基因同種型簡介、篩選器參數設定表格、基因與基因同種型差異表現表格、基因與基因同種型FPKM盒狀圖,及基因同種型的結構圖。
基因與基因同種型簡介讓使用者快速的了解基因與基因同種型,點擊基因或基因同種型名稱可連結至NCBI簡介頁面。篩選器參數設定表格提供使用者查看先前的參數設定。基因與基因同種型的差異表現表格中,提供的資訊包括基因或基因同種型名稱、狀態一平均FPKM、狀態二平均FPKM、狀態一與狀態二的FPKM倍率變化、假設檢定數值與此基因或基因同種型是否符合篩選器設定。使用者可在基因同種型差異表現表格中,觀察出同一基因中的基因同種型,有部分符合篩選器設定,即滿足使用者差異表現的定義,而有一部份卻不符合,可找出主要導致癌症的基因同種型,換句話說,有部分基因同種型抑制癌症,而部分導致癌症的情形,這值得研究人員進一步的探討。FPKM盒狀圖可以幫助使用者快速的了解所選基因或基因同種型在兩狀態FPKM的分布情況,盒狀圖右上角的工具列提供下載、放大、移動座標等功能。我們還提供基因同種型的結構圖,這會幫助使用者了解基因同中型中外顯子、內含子與編碼序列的所屬區域,使用者可與差異表現表格與FPKM盒狀圖進行搭配,找出哪些外顯子、內含子與編碼序列為影響癌症的關鍵因素。基因同種型結構圖提供使用者放大與位移的功能,點擊右上角“Reset Scale”即可恢復原始座標。
搜尋功能(ii)
在搜尋功能(ii)中,使用者可以查詢單一基因或基因同種型在哪些狀態組合下會有差異表現,這將會幫助使用者在未知狀態下查詢基因或基因同種型是否差異表現,並提供視覺化圖示使搜尋結果更直覺化。我們將查詢功能分成兩個步驟,第一步,使用者輸入欲查詢之基因或基因同種型名稱,第二步為與搜尋功能(ii)中相同的兩種篩選器,使用者可自行設定參數篩選出具有差異表現的狀態列表,完成以上步驟後按下搜尋按鈕即完成查詢。
搜尋功能(ii)的結果頁面包含查詢之基因或基因同種型簡介、篩選器參數設定表格、差異表現狀態組合表格與差異表現狀態組合盒狀圖。基因與基因同種型簡介讓使用者快速的了解基因與基因同種型,點擊基因或基因同種型名稱可連結至NCBI簡介頁面。篩選器參數設定表格提供使用者查看先前的參數設定。差異表現狀態組合表格是以輸入基因或基因同種型與篩選器設定的參數,至資料庫中所有狀態組合的Cuffdiff輸出結果進行篩選,篩選出來的狀態組合即為符合篩選器設定的候選清單,表格中的資訊包括癌症部位、狀態一、狀態二、狀態一平均FPKM、狀態二平均FPKM、狀態一與狀態二的FPKM倍率變化、假設檢定數值與詳細資訊。使用者可於有興趣的狀態組合點擊“Detail”即進入同搜尋功能(i)的Detail頁面查看更詳細的資訊,表格提供欄位排序、切換欄位數量與即時搜尋的功能。差異表現狀態組合的盒狀圖可以幫助使用者了解此基因或基因同種型,在各個篩選出的狀態組合中FPKM分佈情形,右上角的工具列提供下載、放大、移動座標等功能。
搜尋功能(iii)
在搜尋功能(iii)中,使用者可以查詢基因或基因同種型在所選癌症中,正常與癌症各期別的表現量,與此基因或基因同種型在癌症各期別的存活分析,並提供視覺化圖示使搜尋結果更直覺。我們將查詢功能分成兩個步驟,第一步,使用者輸入欲查詢之基因或基因同種型名稱,第二步,使用者於表格中選取欲查詢的癌症與期別,完成以上步驟後按下搜尋按鈕即完成查詢。
搜尋功能(iii)的結果頁面包含查詢之基因或基因同種型簡介、所選癌症期別的FPKM盒狀圖與所選癌症的存活分析。不同於搜尋功能(i)的FPKM盒狀圖,此處的FPKM盒狀圖會依照使用者選取狀態呈現,不局限於兩兩狀態組合,提供使用者查尋任意狀態的FPKM分佈情形。存活分析提供使用者觀看基因或基因同種型影響癌症病患存活時間的情形,我們依據基因或基因同種型在病患的表現量,與使用者設定FPKM的高表現百分比與低表現百分比進行比較,高於FPKM高表現百分比的病人歸類為高表現(High Expression)病患,低於FPKM低表現百分比的病人歸類為低表現(High Expression)病患,搭配臨床資料紀載的存活時間,即產生存活分析圖。使用者可於存活分析圖右上角工具列自行切換高表現百分比、低表現百分比、觀察天數與癌症狀態,按下“Submit”後圖片將即時更新為最新設定,亦提供下載當前存活分析資料的功能。