• 生物信息學中的機器學習

    編輯
    本詞條由“匿名用戶” 建檔。

    生物信息學中的機器學習

    編輯

    生物信息學中的機器學習是將機器學習算法應用于生物信息學,包括基因組學、蛋白質組學、微陣列、系統生物學進化和文本挖掘。在機器學習出現之前,生物信息學算法必須通過手工編程;對于蛋白結構預測等問題,這被證明是困難的。機器學習技術,如深度學習可以學習數據集的特征,而不是要求程序員單獨定義它們。該算法可以進一步學習如何將低層次的特征組合成更抽象的特征,等等。這種多層次的方法使得這種系統在經過適當的訓練后可以做出復雜的預測。這些方法與其他計算生物學方法形成對比,后者雖然利用了現有的數據集,但不允許以意想不到的方式對數據進行解釋和分析。近年來,可用的生物數據集的規模和數量都急劇上升。

    生物信息學中的機器學習的任務

    編輯

    生物信息學中的機器學習算法可用于預測、分類和特征選擇。實現這一任務的方法是多種多樣的,跨越了許多學科;其中最知名的是機器學習和統計學。分類和預測任務的目的是建立描述和區分類別或概念的模型,以便將來預測。它們之間的區別如下。分類/識別輸出一個分類類別,而預測輸出一個數字值特征。算法的類型,或使用類比、規則、神經網絡、概率和/或統計學從數據中建立預測模型的過程。由于信息技術和適用模型的指數級增長,包括人工智能和數據挖掘,除了訪問越來越全面的數據集,新的和更好的信息分析技術已經創建,基于其學習能力。這種模型允許超越描述,并以可測試的模型形式提供洞察力。

    機器學習方法

    編輯

    人工神經網絡

    生物信息學中的人工神經網絡已被用于。比較和排列RNA、蛋白質和DNA序列。識別啟動子和從與DNA相關的序列中尋找基因。解釋表達基因和微陣列數據。識別基因的網絡(調節)。通過構建系統發育學習進化關系。分類和預測蛋白質結構。分子設計和對接。特征工程從領域數據中提取特征的方式,通常是多維空間的向量,是學習系統的一個重要組成部分。在基因組學中,一個典型的序列表示是一個k-mers頻率的向量,它是一個維度為主成分分析等技術被用來將數據投射到一個較低維度的空間,從而從序列中選擇一個較小的特征集。

    生物信息學中的機器學習的分類

    編輯

    在這種類型的機器學習任務中,輸出是一個離散的變量。這種類型的任務在生物信息學中的一個例子是根據已經標記的數據模型來標記新的基因組數據(如不可培養的細菌的基因組)。

    機器學習算法

    隱馬爾科夫模型

    編輯

    隱馬爾科夫模型(HMMs)是一類用于連續數據的統計模型(通常與隨時間演變的系統有關)。一個HMM由兩個數學對象組成:一個觀察到的依賴狀態的過程.在HMM中,狀態過程不是直接觀察的--它是一個"隱藏的"(或"潛伏的")變量--但觀察的是一個與狀態相關的過程(或觀察過程),它是由基礎狀態過程驅動的(因此可以被看作是對感興趣的系統狀態的噪聲測量)。HMMs可以用連續時間來表述。HMMs可用于剖析并將多序列排列轉換成適合遠程搜索數據庫同源序列的特定位置評分系統。此外,生態現象也可以用HMMs來描述。

    卷積神經網絡

    編輯

    卷積神經網絡(CNN)是一類深度神經網絡,其結構是基于卷積核或過濾器的共享權重,沿著輸入特征滑動,提供被稱為特征圖的翻譯變量響應。

    內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175784/

    (4)
    詞條目錄
    1. 生物信息學中的機器學習
    2. 生物信息學中的機器學習的任務
    3. 機器學習方法
    4. 人工神經網絡
    5. 生物信息學中的機器學習的分類
    6. 隱馬爾科夫模型
    7. 卷積神經網絡

    輕觸這里

    關閉目錄

    目錄
    91麻精品国产91久久久久