目錄
簡介
編輯學習型自動機是1970年代以來研究的一種機器學習算法。學習型自動機根據環境中過去的經驗來選擇它們當前的行動。如果環境是隨機的,并且使用馬爾科夫決策過程(MDP),它將屬于強化學習的范圍。
學習型自動機的歷史
編輯學習自動機的研究可以追溯到20世紀60年代初MichaelLvovitchTsetlin的工作。他與一些同事一起,發表了一系列關于如何使用矩陣來描述自動機功能的論文。此外,Tsetlin還研究了合理和集體的自動機行為,以及自動機游戲。
學習型自動機的定義
編輯學習型自動機是一個位于隨機環境中的適應性決策單元,它通過與環境的反復互動學習最佳行動。
行動是根據特定的概率分布選擇的,該概率分布根據自動機通過執行特定行動獲得的環境響應而更新。就強化學習領域而言,學習自動機的特點是政策迭代器。與其他強化學習器相比,策略迭代器直接操縱策略π。策略迭代器的另一個例子是進化算法。
從形式上看,Narendra和Thathachar將隨機自動機定義為由以下部分組成。一組X的可能輸入,一組Φ={Φ1,...,Φs}的可能內部狀態,一組α={α1,...,αr}的可能輸出,或行動,r≤s,一個初始狀態概率向量p(0)=?p1(0),...,ps(0)...,ps(0)?,一個可計算的函數A,在每個時間步驟t之后,從p(t)、當前輸入和當前狀態生成p(t+1),以及一個函數G。
在他們的論文中,他們只研究了r=s的隨機自動機和G是雙射的,允許他們混淆動作和狀態。
這樣的自動機的狀態對應于離散狀態的離散參數馬爾科夫過程的狀態。在每個時間步驟t=0,1,2,3,...,自動機從其環境中讀取輸入,通過A將p(t)更新為p(t+1),根據概率p(t+1)隨機選擇一個后續狀態并輸出相應的動作。
通常使用輸入集X={0,1},0和1分別對應于環境的非懲罰性反應和懲罰性反應;在這種情況下,自動機應該學會使懲罰性反應的數量最小化,自動機和環境的反饋循環被稱為P模型。更一般地說,Q模型允許一個任意的有限輸入集X,而S模型使用實數的區間[0,1]作為X。
紐卡斯爾大學的微系統(microSystems)研究小組已經開發了一個單一學習自動機的可視化演示/藝術作品。
有限行動集學習自動機
編輯有限行動集學習自動機(FALA)是一類學習自動機,對它來說,可能的行動數是有限的,或者用更多的數學術語來說,行動集的大小是有限的。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175744/