行動模型學習
編輯行動模型學習(有時縮寫為行動學習)是機器學習的一個領域,涉及到創建和修改軟件代理對其環境中可以執行的行動的效果和前提條件的知識。這種知識通常用基于邏輯的行動描述語言表示,并作為自動計劃器的輸入。當目標改變時,學習行動模型是很重要的。當一個xxx行動了一段時間后,它可以利用其積累的關于領域內行動的知識來做出更好的決定。因此,學習行動模型有別于強化學習。它能夠對行動進行推理,而不是在世界中進行昂貴的試驗。行動模型學習是一種歸納推理的形式,新的知識是基于xxx的觀察而產生的。它與標準的監督學習不同,正確的輸入/輸出對從未被提出,不精確的行動模型也沒有被明確糾正。行動模型學習的通常動機是,為計劃者手動指定行動模型通常是一項困難、耗時和容易出錯的任務(特別是在復雜環境中)。
行動模型
編輯給出一個訓練集{displaystyles,s'}是兩個連續時間步驟的世界狀態觀測值。是兩個連續時間步驟中對世界狀態的觀察結果{displaystylet,t'}是對世界狀態的觀察,來自兩個連續的時間步驟t,t′。{displaystylea}是在時間步驟中觀察到的動作實例。是在時間步驟中觀察到的一個動作實例{displaystylet}是在時間步驟t中觀察到的動作實例。一般來說,行動模型學習的目標是構建一個行動模型.除了確定性,各個方法在處理領域的其他屬性(如部分可觀察性或傳感器噪聲)方面也有所不同。
行動學習方法
編輯最近的行動學習方法采取了各種方法,并采用了來自人工智能和計算邏輯不同領域的各種工具。作為一個基于命題邏輯的方法的例子,我們可以提到SLAF(同步學習和過濾)算法,它使用xxx的觀察來構建一個隨時間變化的長命題公式,隨后使用可滿足性(SAT)解算器來解釋它。另一種技術是將學習轉換為可滿足性問題(這里是加權MAX-SAT),并使用SAT求解器,在ARMS(行動-關系模型系統)中實現。
兩種相互類似的、完全聲明式的行動學習方法是基于邏輯編程范式的答案集編程(ASP)及其擴展,即反應式ASP。在另一個例子中,采用了自下而上的歸納邏輯編程方法。幾個不同的解決方案并不直接基于邏輯。例如,使用感知器算法的行動模型學習或在可能的行動模型空間上的多層次貪婪搜索。在1992年的一篇較早的論文中,行動模型學習被作為強化學習的一個延伸來研究。
文獻資料
編輯大多數行動學習研究論文都發表在專注于一般人工智能的期刊和會議上(如人工智能研究雜志(JAIR)、人工智能、應用人工智能(AAI)或AAAI會議)。盡管主題相互關聯,但行動模型學習通常不會在像ICAPS這樣的規劃會議上討論。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/175433/