AI已經學會和人類談判了你能說服人類聽它嗎

字寫得太好了,人類根本看不出來是AI。
這是Meta AI—AI模型西塞羅的最新成果,已經發表在《科學》雜志上。
嗯,和古羅馬著名政治家,演說家西塞羅同名。
研究人員讓這個AI西塞羅隱藏身份,加入一場外交游戲在40場比賽中,82名人類玩家從未懷疑過它其實是一個AI
而且戰績可圈可點,全程平均分25.8%,是人類選手平均分的兩倍,最終排名前10%。
結果一經發布,便在網上引起熱議。
有人評論:這意味著AI在最像人類的游戲中打敗了人類,超乎想象…
樂存稱之為:里程碑式的研究!
目前模型代碼已經在GitHub上開源。
我真的覺得自己是個AI戰略家。
其實AI chatter一直都是被詬病的,更何況外交這種對語言能力要求超高的場景。
它需要理解對方的語言,動機,制定自己的修辭策略,調整措辭。
有時候甚至需要玩心眼,故意說一些謊話,給對方設個圈套。
如何挑戰這種超高難度的任務。
俗話說,一口吃不胖。
Meta AI想到了從游戲場景入手。
但外交博弈不同于以往的棋局或競技游戲,沒有那么規律,有很多運籌帷幄,隨機應變的環節。
實驗中使用的游戲是網絡外交。
這個游戲的背景是1901年的歐洲七個玩家各自控制一個大國,通過相互合作協商,盡可能多的占領領土
西塞羅的核心是由對話引擎和戰略推理引擎驅動的。
簡單,這里的對話引擎類似于GPT—3和LaMDA,策略推理引擎類似于AlphaGo。
所使用的對話模型是從具有2.7億個參數的BART模型中訓練出來的。
巴特吸收了GPT和伯特各自的特點比BERT更適合文本生成的場景,可以雙向理解上下文信息
具體來說,研究人員先從網上獲取文本訓練對話模型,然后在實際的外交游戲場景中進行微調。
戰略推理引擎使用計劃算法。
該算法可以根據當前情況計算出最佳選擇然后通過加強學習訓練,懲罰模型做出的不像人的策略,讓模型給出的策略更加合理
畢竟在外交游戲中與人打交道是讓AI更加人性化的最基本要求之一。
而且強化學習的迭代訓練可以不斷提高AI做出的戰略預測監督學習的效果優于傳統方法
在實際操作中,西塞羅會先根據目前為止的游戲狀態和對話,對每個人的行動進行初步預測。
接下來,在不斷協商的過程中,它會不斷完善自己的預測,然后利用這些預測為自己和合作伙伴設定一個共同的目標。
其次,它會根據情境狀態,對話及其目標,從對話模型中生成若干候選消息,利用分類器等過濾機制過濾掉無意義的消息,生成最終的高質量輸出文本。
當球員意大利問它是否應該進攻土耳其時,西塞羅會根據場上的情況判斷這是從兩面夾擊俄羅斯的好機會,然后說服意大利跟進進攻土耳其。
這一步不僅與意大利建立了合作伙伴關系,還消除了一個潛在的競爭對手。
而且,談判是西塞羅的專長。
西塞羅這次扮演的是德國,之前和玩家法國交戰過此時法國南部同時遭到意大利的攻擊,于是他找西塞羅和談
西塞羅利用獅子的大嘴,要求法國歸還侵占的領土,并承諾不再進攻荷蘭雙方在討價還價中成功地達成了協議
就像上面的例子,西塞羅在兩個月的時間里參加了40場外交比賽,與82名人類選手進行了對抗。
西塞羅在每場比賽中平均收發130條信息。
它的游戲水平甚至優于人類:平均分是人類玩家的兩倍以上,甚至玩過一局以上的參與者都能排進前10%。
網友:雖然表現不錯,但是我很害怕。
看了西塞羅在外交上的精彩表現,有網友感受到了AI的發展速度:
Deep打敗了卡斯帕羅夫,Watson在競猜中打敗了兩個人類冠軍,現在輪到Meta AI敲馬基雅維利的門了。
還有人說,這是邁向通用語言大模型的第一步嗎。
樂村給出了肯定的答復:
至少語言是有事實依據的。
可是,由于這場外交游戲以作弊聞名,許多人也對此感到擔憂:
這是直接鼓勵科研人員開發更多善于作弊的模型。
有網友表示,玩這個游戲甚至會失去朋友。
從AI西塞羅的戰績來看,它可以迷惑人類玩家,說服人類跟隨它的策略。
所以有人說這不是AI在控制人類的選擇甚至生命嗎。
不過Meta AI說AI西塞羅也不是沒有錯誤。
而且游戲中還有很多環節需要人類配合西塞羅的表現也很好
目前只在游戲場景中測試過,還沒有嘗試過在開放的背景下與人類談判。
參考鏈接:
。聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。

