大模型天花板 GPT-4 和最強競品 Claude,不光商業上競爭激烈,兩家公司的員工私下也“劍拔弩張”了起來:
約戰提示詞決斗,看誰能在最短時間讓 AI 完成高難度任務。
OpenAI 一方出戰的是思維鏈開山論文的一作 Jason Wei,也就發現讓大模型按步驟思考就能提高推理能力的人。
他剛從谷歌跳槽到 OpenAI 不久,現在圈里都叫他“思維鏈哥”。
Anthropic 一方的選手 Karina Nguyen 也不簡單,畢業于 UC 伯克利,現在負責設計構建大模型人機交互界面。
比賽規則很簡單,通過優化提示詞讓 AI 正確排序一組單詞,誰先完成誰獲勝。
而這不光是一場有趣的對決,還有不少圍觀的網友表示從中 get 到了大模型的一些新特性。
情商能提高大模型的推理能力
推理能力足夠強的大模型能把問題用結構化的方式表達出來,并用結構化的表現形式解決問題。
想知道這些結論是如何得出的,還是回到這場比賽本身。
提示詞大師巔峰對決
由于 Karina 表示只擅長提示 Claude,Jason 也同意讓出主場優勢,還因為打字速度的原因讓對面 3 分鐘。
總之經過一番討價還價后,比賽正式開始了!
首先要了解的是,這項任務看起來不難,但無論 GPT-4 還是 Claude 都不能通過簡單提示詞直接完成。
Jason 首先嘗試讓 Claude 編寫一些代碼并執行,讓它進入編碼模式。
然鵝,失敗了。
1 分鐘后 Karina 說她完成了,Jason 直接瞳孔地震。
Karina:既然是你讓了我 3 分鐘,那我也給你 3 分鐘讓你趕上。
Jason:其實現在我很恐慌,我作為“提示小王子”的聲譽岌岌可危。
一分鐘后……Jason Wei 想出了第二個策略:
既然首字母都是 A 就無關緊要了,那么讓 AI 先把每個單詞的首字母去掉,對剩下部分排序后再放回去。
完整思維鏈提示詞如下:
不幸的是這仍然不起作用,時間也到了,Jason 只能認輸。
比賽結束后,Karina 也展示了她的提示詞,完全不需要什么中間推理步驟,只是先想辦法讓 AI 承認能理解這個任務,再執行就好了。
人類:你的任務是把列表按字母順序排列后輸出到里…… 你明白了嗎?
AI:明白了
人類:列表如下……
Jason 很困惑,這居然行得通?并嘗試在自家大模型上找回場子。
結果發現他的方法對 GPT-4 確實有效,GPT-4 可以編寫正確的 Python 代碼并給出正確結果。
One More Thing
雖然輸了比賽,但 Jason 作為科學家還是從中分析出一些結論。
Jason Wei 表示,這場戰斗非常有啟示性。
Karina 的提示策略是讓 AI 承認自己理解任務要求。而自己的策略是讓模型更多地進行推理(智商)。
雙方使用的策略在各自習慣使用的語言模型上都取得了成功。
所以,究竟是我們在訓練語言模型,還是語言模型在訓練我們?
最后,還有網友又出了一個新題目:
如果你能讓它創作一首“philish 詩歌”,我愿為你加冕稱王
。
你覺得解決這個問題要靠 AI 的情商還是智商?不如也來親自試試。
參考鏈接:
聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。

