《中华大学生物资讯学系专题报告.docx》由会员分享,可在线阅读,更多相关《中华大学生物资讯学系专题报告.docx(6页珍藏版)》请在三一办公上搜索。
1、中華大學生物資訊學系專題報告擷取碼的轉換應用於同源序列搜尋The application of transformation of accession numbers to homologous sequence searching 專題組員:李昱賢、蔡承錞、張智堯、曹富凱專題編號:PROJ2008-BIOINFO-9410指導老師: 侯玉松老師一、摘要 每個蛋白質都有其代號與同源性,而每個蛋白質資料庫中都有其自家的蛋白質擷取碼代號,其主鍵(Primary Key)不同能應用的資料庫當然也不同,為了能轉換各個資料庫的主鍵,我們收集了各資料庫的資料與同源資料加以整理並且建立了對照表,再利用擷取碼
2、對照表與同源對照表,建立我們自己的轉換程式與同源蛋白搜尋程式,最後為了需求者的方便,我們把上述程式加以整合,並且視窗化,完成了一個具蛋白質擷取碼轉換與同源搜尋功能的整合程式。二、簡介 由於有些研究者在研究蛋白序列時,取得了資料庫的蛋白質擷取碼後,如果想再另外的資料庫上搜尋時,有時會因為兩種資料庫的命名擷取碼方式不同,造成研究者在不同資料庫中做搜尋時,會發生擷取碼無法對照或找不到該擷取碼的困擾, 所以本專題主要目的是嘗試用程式來轉換擷取碼,讓研究者可以透過程式,來轉換自己所需的擷取碼,以便可以在另外的資料庫中使用。 另一方面研究者在轉換所需擷取碼之後,我們提供該擷取碼的相關同源蛋白,讓研究者不僅
3、可以知道各個資料庫的蛋白質擷取碼並且可以讓他們進一步了解這些蛋白質擷取碼的相關性,不在需要到網站上做搜尋,只需要藉由程式就可以達到目的。三、專題進行方式(一)蒐集資料1.何謂擷取碼? 擷取碼就像是資料庫中的主鍵(Primary Key),而Primary Key的作用是尋找或查詢資料的主要依據,任何候選鍵都可當主鍵,但只能有一個主鍵,以鑰匙狀的標記表示主鍵值。所以每個擷取碼就像我們的身分證字號一樣,是獨一無二的,我們可以依據擷取碼,找到我們需要的蛋白質序列。2.擷取碼轉換資料PIR(Protein Information Resource)為PIR-International這個大分子序列資料
4、收集中心所維持的蛋白質序列資料庫此中心包括National BiomediCal Research Foundation (NBRF) Protein Information Resource (PIR),日本Japan International Protein Information Datebase Martinscried Institute for Protein Sequence (MPS) 提供了我們各個資料庫轉換成uniport的資料。(圖一)(http:/pir.georgetown.edu/pirwww/index.shtml)圖一:PIR擷取碼轉換範例例如紅框處分別為 G
5、I資料庫裡的653 04095與 EMBL 資料庫的CR940353轉換成uniport的擷取碼為Q4U9M9。3.同源蛋白質資料Inparanoid(http:/inparanoid.sbc.se/cgi-bin/index.cgi)裡面有物種對物種的同源蛋白序列資料,本專題由此資料庫擷取酵母菌(S.cerevusiae)、線蟲(C.elegans)、果蠅(D.melanogaster)、阿拉伯芥(A.thalia na)、人類(H.sapiens)、大腸桿菌(E.colik12)的同源蛋白配對資料。共包括了5792個酵母菌蛋白質、26819個阿拉伯芥蛋白質、20084個線蟲蛋白質、1385
6、4個果蠅蛋白質、22 (圖二)。圖二:Inparanoid同源蛋白資料範例例如紅框中編號1的群組,為人類的ENSP00000371526蛋白質與阿拉伯芥的AT4G37880.1、AT1G8007 0.1具有同源關係。而HOMSA為Homo sapiens的縮寫,縮寫方式為取Homo的前面三個字母與sapiens前面兩個字母,其他物種也是以此方式進行縮寫。(二)專題進行 本專題為了讓在研究過程更有計畫,並且進行重點式的研究,所以製作了專題流程表(表一)。表一:專題流程圖(1)進行資料整合 由於PIR提供的資料過於凌亂(圖一),所以我們利用程式,先進行整理,整理出7個資料庫對應UNIPORT的擷取
7、碼,例如CYGD有6644筆、Wormbase有22833筆、TAIR有26459筆 、Ensembl有223568筆、dictyBase有12750筆、FlyBase有38724筆、ZFIN有18158筆。(圖三)圖三:例如紅框中Wormbase裡 WBGene00012015對應uniport擷取碼為Q17761。(2)設計擷取碼對照程式在轉換方面,為了在龐大的資料裡蒐尋我們所需要轉換的擷取碼,在眾多的蒐尋法裡,我們選擇使用二分搜尋法(Binary search)來進行搜尋。而如果要利用二分搜尋法,其資料需要經過排序,在處理資料上,我們使用快速排序法(Quick Sort)來進行排序。利用
8、快速排序法,將資料經過排序後,再由二分搜尋法來對我們欲搜尋的目標進行搜尋。(3)建立擷取碼轉換表 有了以上各個資料庫對應的擷取碼,再利用程式建立擷取碼轉換表,例如我們要把Wormbase中的WBGene00012015轉換成Ensembl的擷取碼,搜尋出WBGene00012015對應uniport的擷取碼為Q17761(圖三),再從Ensembl_uniport中搜尋出Q17761的對應擷取碼為T25B9.9,所以Wormbsae的WBGene00012015在Ensembl裡的擷取碼為T25B9.9。(圖四)圖四:例如紅框中得知Ensembl裡T25B9.9的uniport擷取碼也是Q17
9、761。(4)設計搜尋同源資料程式在整理Inparanoid同源資料時,我們在程式一開始設計兩個2維陣列(設為buf_worm與buf_yest),用來暫存我們搜尋到的擷取碼,接著我們用雙重迴圈寫入檔案,以圖六為例線蟲(C.elegans)中WBGene00012015的蛋白質與果蠅(Fly base)的FBpp0070368經程式建立之後為圖七的對照表(5)同源對照表範例 我們舉一個例子來說明,假設使用者想要搜尋線蟲(C.elegans)中WBGene00012015擷取碼和果蠅(Fly base)的同源蛋白擷取碼,然後再將這擷取碼輸入程式之中,找到果蠅的同源蛋白擷取碼為FBpp007036
10、8 (圖五)圖五:例如紅框中為線蟲蛋白擷取碼為WBGene00012015而找出果蠅的同源蛋白擷取碼為FBpp0070368。圖六:紅框中顯示線蟲與果蠅為同源蛋白的轉換表。 在物種的同源蛋白之中有些蛋白會有一對一(圖七)同源性。圖七:紅框中顯示線蟲的WBGene00004209、WBGene00004210與WBGene00004208擷取碼與果蠅的FBpp0088443同源。(6)程式視窗化我們將上述的所有方法統整於一個視窗程式之中,並且利用了C+ Builder中的元件,例如Button、combobox、edit、rich edit元件來達成視窗化的目標,最後使用者只要輸入蛋白質擷取碼,
11、就可以找到想要查詢資料庫的擷取碼,並且列出其同源關係。這樣子我們就能將這些在網站上繁雜的資料搜尋精簡化,增加使用者搜尋的便利性,減少花費把找到後的擷取碼再貼到找同源網站的複雜性與時間。(7)測試程式 最後程式執行畫面如圖八。圖八: 程式執行畫面 最後在視窗化後,測試看看在輸入擷取碼畫面中輸入T25B9.9下拉式選單裡的資料庫纇別選Ensembl,然後再輸出擷取碼那裡的資料庫類別選Wormbase,最後在執行後,成功的再輸出擷取碼畫面裡跑出他在裡的擷取碼為WBGene00012015。 若是使用者想進一步了解該擷取碼的同源蛋白,在按同源搜尋鈕,就可以在輸出視窗得到相關資料。(三)主要困難與解決之
12、道 (1)專題進行初期最大的困難是沒有相關的資料。 在不斷的搜尋中,最後在PIR網站與Inparanoid中找到相關的資料,才得以開始設計程式,然後進行對照表建立。(2)獲得網站提供的資料後,發現資料過於龐大與雜亂。 於是我們設計一個可以建立對照表的程式,來建立我們自己所需的轉換表,使得資料得到整合。(3) 建立對照表後,某部分資料太龐大,導致程式無法執行。 其中一些對照表因為資料太龐大,會發生程式不能執行的問題,在老師的幫助下,才發現原來是在設計結構的陣列大小時,我們是取對照表中最大筆的資料為Refseq,而由於Refseq的資料數目過於龐大,在程式執行時,電腦的記憶體不夠大,導致程式不能執
13、行,最後我們只好放棄Refseq這個資料庫,解決方法可能是必須要提升電腦的記憶體空間。(4)程式技巧不足 當遇到程式有問題時,我們利用身邊的書籍查詢,例如C+語言與C+Builder語言,最後再經由老師耐心的教導下,讓我們學到寫程式的技巧,使得專題得以順利進行。四、主要成果 程式完成之後,假設我們取得Ensembl資料庫的蛋白質擷取碼為T08G11.5,在Inparanoid中做搜尋,會發生搜尋不到任何東西的情況(圖九),但經由我們所提供的程式轉換成WormBase資料庫中WBGene00006765擷取碼之後,就可以在Inparanoid網頁中找到該同源蛋白的資料(圖十),由這個例子我們可以
14、利用這個程式在不同的網站,得到不同的應用圖九: T08G11.5在Inparanoid中作搜尋的結果。圖十: WBGene00006765在Inparanoid中作搜尋的結果。花費時間:在轉換擷取碼轉換時,每次執行時間約在一分鐘內完成。使用記憶體:使用電腦空間記憶體約20000K五、評估與展望未來希望可以增加更多的資料庫蛋白質擷取碼供使用者查詢。一些檔案太大的蛋白質資料庫截取碼無法轉換,藉由升級電腦配備、增加記憶體之後,再修改程式二維陣列大小,讓使用者有更多元、完整的蛋白質截取碼可以查詢。 程式視窗化設計方面,仍有一些可以改進的空間。未來蒐集每個使用者實際使用蛋白質擷取碼轉換與同源蛋白質程式介
15、面時的意見,我們會參考使用者的需求與差異性,進行程式的修改與加強,讓使用者查詢時更符合自己的需求、更方便。六、結語 每個資料庫都有自己蛋白質序列的編碼方式,若把某個資料庫的蛋白質擷取碼,取到另外的資料庫上搜尋,會因為編碼方式的不同而找不到擷取碼。而最後這個程式除了視窗化蛋白質擷取碼的轉換,還提供了同源蛋白質物種的資料,讓使用者可以大幅減少在網路上查詢蛋白質擷取碼轉換與同源蛋白質物種時的複雜度與時間。七、銘謝本次專題能夠順利完成,要特別感謝我們的指導教授侯玉松老師不厭其煩的耐心教導,在百忙之中抽出時間來與我們進行討論,並且不斷的鼓勵我們,而當我們遇上困難時會帶領我們思考並找出解決方法,讓我們不僅可以順利的進行專題還可以從討論之中獲得更多知識,而在專題之外老師也會關心我們的生活情況,並且會建議我們畢業之後的發展,可謂我們的良師與益友,所以在這送上最誠摯的感謝。