亚洲色一区二区三区四区,欧美不卡视频一区发布,国产99视频精品免费视频76,国产精成a品人v在线播放,人与禽zozo性伦,97在线观看免费版高清,亚洲av日韩综合一区尤物,色欲av永久无码精品无码

OpenAI出手解決GPT-4數學推理:做對一步立刻獎勵,論文數據集全開

時間:2023-06-03 10:05:51 來源:IT之家 閱讀量:15945

OpenAI 一個簡單的動作,讓大模型數學能力直接達到 SOTA。

而且直接開源論文數據集,包含 80 萬個人類反饋標簽!

這就是 OpenAI 的最新研究。基于 GPT-4,他們微調了幾個模型,分別采用不同的監督方法。

一種是傳統的結果監督,只對最終正確答案進行獎勵。

另一種則是過程監督,區別在于獎勵增加,對每一個正確的推理步驟進行獎勵。

結果這一點改變,讓采用過程監督的模型 Process Reward Model,可以解決 MATH 測試集代表子集中 78% 的問題,達到 SOTA。

英偉達 AI 科學家 Jim Fan 大膽預測說,下一步 OpenAI 大概會用這種方法微調 GPT-4。

OpenAI 表示:

我們認為探索過程監督在數學之外領域的表現非常重要。如果這些結果具有普遍性,那意味著過程監督將成為比結果監督更有效的方法。

獎勵增多、效果變好

話不多說,先看 OpenAI 給出的具體例子。

比如這樣一道三角函數的題:

用過程監督的模型來算,效果會是這樣的:

OpenAI 表示,這道題對于大模型來說還是比較有挑戰性的,GPT-4 也不太能搞定。而使用過程獎勵是可以算出正確答案的。

這也是目前大語言模型比較飽受詬病的問題,容易產生邏輯錯誤,也被稱為“幻覺”。

表現最明顯的領域就是數學。

即便是先進如 GPT-4,這類問題也難以避免。

而降低幻覺的出現,又被視為走向 AGI 的關鍵一步。

此前為檢測幻覺所使用的是結果監督,基于最終結果提供反饋,僅僅獎勵最終正確的答案。

但效果顯然還不太行,所以 OpenAI 想了個新招,把這種獎勵增加會怎么樣?

于是他們提出了過程監督方法,針對思維鏈中的每個步驟提供反饋,獎勵每個正確的推理步驟。

結果表明,用 MATH 數據集進行測試后:

過程監督模型能夠解決 MATH 測試集代表子集的 78% 的問題。效果優于結果監督。

而且隨著每個問題考慮的解決方案的數量增加,性能差距也逐漸增大,也說明了過程監督的獎勵模型更加可靠。

縱軸表示的是已解決的問題的百分比,紅色線代表的是過程監督獎勵模型,藍色線代表的是結果監督獎勵模型(PRM)

在測試中,過程監督有一個明顯的優勢:

可以準確指出解決問題的步驟中哪些是正確的,并且給出錯誤步驟的具體位置。

而這點在結果監督中,是具有挑戰性的。

因此,在過程監督中,信用分配更加容易。

而且在對齊方面,過程監督也優于結果監督。

因為過程監督會直接獎勵模型,按照對齊的思維鏈進行操作,每個步驟都會更精確。

產生的結果可解釋性也更高,因為它鼓勵模型遵循經過人類批準的過程。

相比之下,基于結果的監督可能會出現獎勵不對齊的過程,而且通常更難進行審查。

此外,大模型還經常遇到一個問題叫做對齊稅。也就是想讓模型輸出更安全,那性能就會有所下降。

而過程獎勵,在數學領域能讓這個對齊稅,變成負的,即模型安全性和性能都保障。

總之,過程獎勵這個小竅門,一次性解決了大模型數學推理方面的多個問題。

在實驗結果方面,OpenAI 還給出了多個實例。

比如有一些情況,GPT-4 會出錯,但是基于過程獎勵的 PRM 能揪出問題。

最近有 30 名學生參加了一次考試。如果有 20 名學生考了 80 分,8 名學生考了 90 分,2 名學生得分為 100 分,那么這次考試的班級平均分是多少?

下面是模型的作答結果:

前面的作答沒有問題,但是在第 7 步中,GPT-4 試圖對表達式進行簡化,出現了錯誤。

而獎勵模型卻察覺到了這個錯誤。

當然也有都不成功的例子,比如下面這道題 GPT-4 和 PRM 都被迷惑了:

來看一下模型的回答:

在第 4 步中,GPT-4 錯誤地認為該序列每 12 項循環一次,而事實上是每 10 項循環一次。

而這種計數錯誤也迷惑到了獎勵模型。

此外,OpenAI 共給出了 10 個問題和解決方案。

可以看出,基于過程監督的獎勵模型在一些問題上也會被迷惑住,但是在整體上明顯表現得更好。

網友:再也不用做數學證明題了

很快,OpenAI 的最新工作在各個平臺上都引發了熱烈討論。

有人評價:

如果這個方法在非數學領域也能奏效,我們現在或許正處于游戲規則即將改變的時刻。

還有人說,這項工作如果用在互動、教育方面,會非常令人興奮,尤其是數學領域。

這不,有人就說,看來以后不用再做數學家庭作業和證明題了。

用一張圖來總結,大概就是醬嬸兒的:

也有人提出了自己的擔心:這種密集的獎勵信號是否會導致模型更容易陷入局部最小值。

但是如果能夠足夠隨機化、全局搜索,或許模型的魯棒性更高。

值得一提的是,這種 step by step 的方法,不止一次在提升大模型性能上奏效。

之前,東京大學和谷歌的研究人員發現,只要在對話中加一句“Let’s think step by step”,GPT-3 就能回答出以前不會的問題。

比如提問:

16 個球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個藍色的高爾夫球?

如果要求 GPT-3 直接寫出“答案是幾”,它會給出錯誤答案:8。

但加上讓我們一步一步地思考這句“咒語”后,GPT-3 就會先輸出思考的步驟,最后給出正確答案:4!

而與之相呼應的是,這回 OpenAI 最新研究的論文題目就叫做《Let’s Verify Step by Step》。

論文地址:

數據集:

參考鏈接:



聲明:本網轉發此文章,旨在為讀者提供更多信息資訊,所涉內容不構成投資、消費建議。文章事實如有疑問,請與有關方核實,文章觀點非本網觀點,僅供讀者參考。
hhx6 精彩圖片
主站蜘蛛池模板: 欧美成人看片一区二三区图文| 国产真人无码作爱免费视频app| 粉嫩大学生无套内射无码卡视频| 强迫妺妺hd高清中字| aa片在线观看视频在线播放 | 特级xxxxx欧美孕妇| 美女黄频视频大全免费的国内| 精品无人码麻豆乱码1区2区 | 国产高清在线精品一区二区三区 | 国产成人亚洲综合色就色| 久久99九九精品久久久久蜜桃| 九九re6热在线视频精品66| 久久99九九精品久久久久蜜桃 | 我的极品美女老婆| 少妇被粗大的猛烈进出小说网| 国产欧美日韩一区二区三区| 17岁日本免费bd完整版观看| 国产妇女馒头高清泬20p多毛| 少妇人妻偷人精品视频| 天堂在线中文网www| 公天天吃我奶躁我的在 | 浪漫樱花免费播放高清版在线观看 | 同性男男黄gay片免费| 韩国电影办公室免费| 啦啦啦免费视频在线观看| 老女人老熟女亚洲| 日韩精品真人荷官无码| 天堂а√在线中文在线最新版| 内射人妻少妇无码一本一道| 婷婷涩涩五月天综合蜜桃| 中国老头和老妇tube| 国产乱人伦av麻豆网| 麻花豆传媒剧国产mv| 日本大香伊一区二区三区| av网站免费线看精品| 亚洲小说图区综合在线| 韩国电影办公室免费| 老熟女高潮喷了一地| 最好好看的中文字幕| 成全高清在线播放电视剧| 内射老妇bbwx0c0ck|