生物信息學(xué)數(shù)據(jù)分析的作用主要包括:
①用于生物信息學(xué)數(shù)據(jù)分析的建立與查詢:包括基因和基因組數(shù)據(jù)庫(如Genbank、EMBL核酸序列數(shù)據(jù)庫、GDB等)、蛋白質(zhì)數(shù)據(jù)庫(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能數(shù)據(jù)庫(如KEGG、TRRD、TRNSFAC等)。
②用于序列比對(duì):即蛋白質(zhì)序列之間或核酸序列之間的比對(duì)。包括序列的兩兩比對(duì)和多序列比對(duì)。
③核酸與蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測(cè)分析。
④基因組序列信息分析。
⑤功能基因組相關(guān)信息分析:包括大規(guī)模基因表達(dá)譜分析、基因組水平蛋白質(zhì)功能綜合預(yù)測(cè)。
具體而言,生物信息學(xué)數(shù)據(jù)分析發(fā)現(xiàn)中應(yīng)用的數(shù)據(jù)挖掘技術(shù)包括:
①構(gòu)選基因數(shù)據(jù)庫或數(shù)據(jù)倉庫:由于廣泛多樣的DNA數(shù)據(jù)高度分?jǐn)?shù),為了便于對(duì)DNA數(shù)據(jù)庫進(jìn)行系統(tǒng)分析,需要利用數(shù)據(jù)挖掘中的數(shù)據(jù)清理和數(shù)據(jù)集成的方法來構(gòu)造集成式數(shù)據(jù)倉庫和開發(fā)分布式數(shù)據(jù)庫。
②序列模式分析:DNA序列間的相似搜索和比較是基因分析中重要的問題之一。由于基因數(shù)據(jù)是非數(shù)字的,所以數(shù)據(jù)挖掘中針對(duì)非數(shù)字的序列模式分析方法在基因序列比對(duì)中能起到非常重要的作用。
③關(guān)聯(lián)分析:大部分疾病不是由一個(gè)基因引起的,而是由多個(gè)基因組合起來共同起作用的結(jié)果。因此采用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法有助于發(fā)現(xiàn)基因組間的,進(jìn)而揭示人類疾病背后的基因原因。
④可視化:基因的復(fù)雜結(jié)構(gòu)和序列模式常常需要由各種可視化工具以圖、樹、鏈等形式來表現(xiàn)。可視化工具有助于生物信息的模式理解和知識(shí)發(fā)現(xiàn)。