據(jù)外媒報(bào)道,在此背景下,美國(guó)麻省理工學(xué)院與英偉達(dá)公司(NVIDIA)的研究人員研發(fā)了一種新方法,成功將上述兩種方法的優(yōu)勢(shì)結(jié)合起來(lái)。此種混合圖像生成工具采用自回歸模型,快速捕捉整體畫(huà)面,然后運(yùn)用小型擴(kuò)散模型,對(duì)圖像進(jìn)行細(xì)節(jié)優(yōu)化。該款工具名為HART(hybrid autoregressive transformer,混合自回歸轉(zhuǎn)換器的縮寫(xiě)),能夠生成與當(dāng)前最先進(jìn)的擴(kuò)散模型所生成的圖像,質(zhì)量相當(dāng)甚至更優(yōu)的圖像,同時(shí)速度提升了九倍。
AI工具生成逼真圖像
HART生成圖像的過(guò)程所消耗的計(jì)算資源較典型擴(kuò)散模型更少,因而使其能夠在商用筆記本電腦或智能手機(jī)上本地運(yùn)行。用戶只需在HART界面輸入自然語(yǔ)言提示,即可生成圖像。HART可能具有廣泛的應(yīng)用前景,例如幫助研究人員訓(xùn)練機(jī)器人,以完成復(fù)雜的真實(shí)世界任務(wù);協(xié)助設(shè)計(jì)師為視頻游戲打造更具吸引力的場(chǎng)景。
兩全其美
Stable Diffusion和DALL-E等流行的擴(kuò)散模型能夠生成高度細(xì)節(jié)化的圖像。此類模型通過(guò)迭代過(guò)程生成圖像,在此過(guò)程中,此類模型會(huì)對(duì)每個(gè)像素預(yù)測(cè)一定量的隨機(jī)噪聲,然后減去噪聲,之后預(yù)測(cè)過(guò)程與“去噪”過(guò)程會(huì)被重復(fù)多次,直至生成一張完全無(wú)噪聲的新圖像。
由于擴(kuò)散模型在每一步均需對(duì)圖像中的所有像素執(zhí)行去噪操作,并且該過(guò)程可能包括30步或更多步驟,因此整體過(guò)程可能會(huì)比較緩慢且計(jì)算成本高昂。但是,因?yàn)樵撃P陀卸啻螜C(jī)會(huì)修正之前出錯(cuò)的細(xì)節(jié),因此生成的圖像質(zhì)量會(huì)很高。
自回歸模型在文本預(yù)測(cè)任務(wù)中得到了廣泛應(yīng)用,并且可通過(guò)依次預(yù)測(cè)圖像塊生成圖像。盡管該模型無(wú)法回溯以修正錯(cuò)誤,但是此種順序預(yù)測(cè)過(guò)程比擴(kuò)散模型速度快得多。
此類模型采用稱作標(biāo)記的表現(xiàn)形式來(lái)進(jìn)行預(yù)測(cè)。自回歸模型采用自動(dòng)編碼器將原始圖像像素壓縮為離散標(biāo)記,并基于此類預(yù)測(cè)標(biāo)記重建圖像。盡管此種方法提升了模型的速度,但是壓縮過(guò)程中發(fā)生的信息丟失可能會(huì)導(dǎo)致模型在生成新圖像時(shí)出現(xiàn)錯(cuò)誤。
借助HART,研究人員研發(fā)了一種混合方法,運(yùn)用自回歸模型來(lái)預(yù)測(cè)壓縮的離散圖像標(biāo)記,再運(yùn)營(yíng)小型擴(kuò)散模型來(lái)預(yù)測(cè)殘差標(biāo)記。其中,殘差標(biāo)記能夠捕捉離散標(biāo)記遺漏的細(xì)節(jié)信息,補(bǔ)償模型丟失的信息。
由于擴(kuò)散模型只能預(yù)測(cè)自回歸模型完成工作后的剩余細(xì)節(jié),因此其可在八個(gè)步驟內(nèi)完成任務(wù)。相比之下,標(biāo)準(zhǔn)擴(kuò)散模型通常需要30個(gè)或者更多步驟來(lái)生成完整的圖像。此種額外引入的擴(kuò)散模型以極低的計(jì)算量保留了自回歸模型的速度優(yōu)勢(shì),同時(shí)大幅提升其生成復(fù)雜圖像細(xì)節(jié)的能力。
在研發(fā)HART的過(guò)程中,研究人員在高效整合擴(kuò)散模型以增強(qiáng)自回歸模型方面遇到了挑戰(zhàn)。但是他們發(fā)現(xiàn),在自回歸過(guò)程的早期集成擴(kuò)散模型會(huì)導(dǎo)致誤差累積。因此,最終的設(shè)計(jì)僅在最后一步應(yīng)用了擴(kuò)散模型,以預(yù)測(cè)剩余標(biāo)記,從而顯著提升了圖像生成的質(zhì)量。
研究人員的方法結(jié)合了含有7億參數(shù)的自回歸轉(zhuǎn)換器模型和含有3700萬(wàn)參數(shù)的輕量級(jí)擴(kuò)散模型,能夠生成與擁有20億參數(shù)的擴(kuò)散模型同等質(zhì)量的圖像,但是速度卻快了九倍。此外,其計(jì)算量比最先進(jìn)的模型少約31%。
此外,由于HART采用自回歸模型來(lái)完成大量工作,因此其更易與新型統(tǒng)一視覺(jué)-語(yǔ)言生成式模型集成在一起。未來(lái),人們或許能夠與統(tǒng)一視覺(jué)-語(yǔ)言生成式模型互動(dòng),例如要求其展示組裝一件家具所需的中間步驟。
展望未來(lái),研究人員希望能夠繼續(xù)研究,基于HART架構(gòu)打造視覺(jué)-語(yǔ)言模型。由于HART具有可擴(kuò)展性以及多模態(tài)通用性,因此研究人員還希望將其應(yīng)用于視頻生成和音頻預(yù)測(cè)任務(wù)。
聲明:本網(wǎng)轉(zhuǎn)發(fā)此文章,旨在為讀者提供更多信息資訊,所涉內(nèi)容不構(gòu)成投資、消費(fèi)建議。文章事實(shí)如有疑問(wèn),請(qǐng)與有關(guān)方核實(shí),文章觀點(diǎn)非本網(wǎng)觀點(diǎn),僅供讀者參考。
相關(guān)新聞
- 春日里的小橋流水煙火氣朱家角古鎮(zhèn)“圈粉”海內(nèi)外博
- 宏光增程神車更神五菱宏光增程版6.88萬(wàn)元起正式
- 特斯拉宣布進(jìn)入沙特阿拉伯市場(chǎng)
- 萬(wàn)事利年報(bào)摘要:2024年歸母凈利潤(rùn)同比增長(zhǎng)1.
- 教育部推進(jìn)AI人才培養(yǎng)對(duì)接,我國(guó)已擁有人工智能相
- OTA市場(chǎng)保持增長(zhǎng),15-25萬(wàn)元仍有增量空間汽
- 無(wú)錫振華不超5.2億可轉(zhuǎn)債獲上交所通過(guò)東方證券建
- 新機(jī)遇新價(jià)值——中國(guó)投資界鼎力推薦藝術(shù)大師李增榮
- AI賦能醫(yī)療服務(wù)全面升級(jí),今年以來(lái)已新增智慧醫(yī)療
- 春菜熱潮涌動(dòng),今年以來(lái)已新增生鮮蔬果相關(guān)企業(yè)超5


- 春風(fēng)行動(dòng)助力就業(yè)3100萬(wàn)崗,貴州人力資源相關(guān)
- 戶外運(yùn)動(dòng)熱潮催生新職業(yè),今年以來(lái)已新增超過(guò)1萬(wàn)
- 中免年終盛典,歲末薅羊毛終極戰(zhàn)場(chǎng),錯(cuò)過(guò)再等一年
- 市值縮水800億,商湯跌下神壇
- 以“無(wú)感智能”重塑兩輪出行,定義未來(lái)智能體電動(dòng)
- 美國(guó)原油庫(kù)存大幅下降國(guó)際原油價(jià)格應(yīng)聲上漲
- 用琴弦連接世界!徐匯新時(shí)代文明實(shí)踐“美育大課堂
- 聚力“雙碳”,培育工科尖兵
- 南京高家?guī)焐鐓^(qū):少年巡山護(hù)綠行
- 銀齡歌手展風(fēng)采

- 春耕新科技助力農(nóng)業(yè)生產(chǎn),我國(guó)農(nóng)業(yè)科技相關(guān)企業(yè)已
- 房地產(chǎn)市場(chǎng)持續(xù)回穩(wěn),我國(guó)現(xiàn)存房地產(chǎn)相關(guān)企業(yè)超3
- 寵物醫(yī)療亂象亟待規(guī)范,我國(guó)現(xiàn)存寵物醫(yī)院相關(guān)企業(yè)
- ESC心衰雜志:芪藶強(qiáng)心改善患者生活質(zhì)量延長(zhǎng)壽
- 智能家居新時(shí)代的可靠伙伴:萬(wàn)和電氣AWE202
- 深圳國(guó)際00152發(fā)布年度業(yè)績(jī)股東應(yīng)占純利28
- 京津冀高校師生共赴西柏坡 開(kāi)啟沉浸式思政教育新
- 雙樂(lè)股份擬發(fā)不超8億可轉(zhuǎn)債實(shí)控人一致行動(dòng)人剛減
- 年輕人引領(lǐng)康養(yǎng)新風(fēng)尚,今年以來(lái)已新增17.9萬(wàn)
- 2月商品房售價(jià)降幅收窄,房地產(chǎn)相關(guān)企業(yè)今年來(lái)已