花火(紙牌游戲)
編輯花火(來自日本的花火,煙花)是由法國游戲設計師AntoineBauza創造的合作性紙牌游戲,于2010年出版。玩家知道其他玩家的牌,但不知道自己的牌,并試圖按照特定的順序打出一系列的牌來引爆一個模擬的煙花表演。玩家可以向對方提供的信息類型是有限的,在游戲中可以提供的信息總量也是有限的。2013年,Hanabi贏得了SpieldesJahres獎,這是年度最佳棋盤游戲的行業獎項。
游戲規則
編輯花牌包含五種花色的卡片(白、黃、綠、藍、紅):三個1,2、3、4各兩個,一個5。游戲開始時有8個可用的信息令牌和3個引信令牌。游戲開始時,玩家發了一張包含五張牌的手牌(4或5名玩家為四張)。如同"盲人摸象",玩家可以看到對方的牌,但不能看到自己的牌。游戲圍繞桌子進行;每回合,玩家必須采取以下行動之一。提供信息。玩家指出另一玩家手中的特定數字或特定花色的牌(例如。這張牌是你xxx的紅牌,這兩張牌是你xxx的3)。所提供的信息必須是完整和正確的。(在某些版本中,允許表示某位玩家有零的東西;其他版本明確禁止這種情況)。提供信息需要消耗一個信息令牌。丟棄一張牌。玩家從手牌中選擇一張牌加入棄牌堆,然后抽一張牌來代替它。被丟棄的牌就會退出游戲,不能再進行游戲。丟棄一張牌可以補充一個信息令牌。出牌。玩家從手中選擇一張牌,并試圖將其加入已經打出的牌中。如果這張牌是尚未出過的花色中的1,或者是已經出過的花色中的下一個數字,則成功。否則會消耗一個導火索令牌,并丟棄被打錯的牌。成功地打出任何花色的5,可以補充一個信息令牌。無論xxx是否成功,玩家都會抽到一張替換的牌。當所有的導火索令牌都用完了,導致游戲失敗,或者所有的5都被成功打出,導致游戲勝利,游戲立即結束。否則,游戲繼續進行,直到牌組用完,之后再進行一整輪。在游戲結束時,每種花色中最高的牌的價值被相加,產生一個總分,總分可能是25分。接待Hanabi獲得了積極的評價。棋盤游戲探索》將該游戲評為四顆半星,贊揚其獨特性、可及性和參與性。同樣,《有主見的玩家》也贊揚了該游戲的參與性和上癮性。它贏得了多個獎項,包括2013年SpieldesJahres獎和2013年Fairplayàlacarte獎得主。計算機HanabiHanabi是一種不完美信息的合作游戲。玩Hanabi的計算機程序可以進行自我游戲,也可以進行臨時的團隊游戲。在自我游戲中,該程序的多個實例在一個團隊中相互游戲。因此,他們共享一個精心磨練的交流和游戲策略,當然,他們不允許與程序的其他實例非法分享關于每場游戲的任何信息。在臨時團隊游戲中,程序與其他任意的程序或人類玩家進行游戲。通過手工編碼基于規則的策略,已經開發了各種計算機程序。xxx的程序,如WTFWThat,在與五個玩家的自我游戲中取得了近乎完美的結果,平均得分24.9分(滿分25分)。
AI挑戰
編輯2019年,DeepMind提出將Hanabi作為一個理想的游戲,用它來建立合作游戲中人工智能研究的新基準。在自我游戲模式中,挑戰是開發一個可以從頭開始學習的程序,與自身的其他實例進行良好的游戲。截至2019年,這樣的程序每場比賽只取得約15分,遠不如手工編碼的程序。然而,截至2020年,這一差距已明顯縮小,簡化行動解碼器取得了24分左右的成績。
特設團隊游戲對人工智能來說是一個更大的挑戰,因為Hanabi將對其他xxx的信念和意圖的推理提升到了前臺。在人類的水平上進行臨時團隊游戲,需要算法通過心智理論學習和發展與其他玩家的溝通慣例和策略。為自我游戲開發的計算機程序在與特設團隊游戲時失敗得很厲害,因為它們不知道如何學習適應其他玩家的游戲方式。Hu等人證明,學習對稱不變的策略有助于人工智能代理避免學習無法解釋的慣例,在與單獨訓練的人工智能代理(得分約為22分)和人類(得分約為16分,而基線自我游戲模型的得分約為20分)匹配時,他們的表現得到了改善。
內容由匿名用戶提供,本內容不代表www.gelinmeiz.com立場,內容投訴舉報請聯系www.gelinmeiz.com客服。如若轉載,請注明出處:http://www.gelinmeiz.com/174789/