觀察丨AI大模型熱:如何從數(shù)據(jù)井噴的“原油”中煉“成品油
2022-04-21 21:51:16 來源:澎湃新聞
近幾年,百度、谷歌、微軟、英偉達(dá)等“科技巨頭”紛紛投入大量人力、財(cái)力相繼推出各自的巨量模型,知曉度最高的如OpenAI的NLP大模型GPT-3,模型參數(shù)1750億,耗資超過1200萬(wàn)美元。
各家為何看好AI大模型,目前落地進(jìn)展如何?科技革命與產(chǎn)業(yè)變革如何互動(dòng),AI大模型在當(dāng)下的產(chǎn)業(yè)智能化變革中有怎樣應(yīng)用潛力?
“AI模型訓(xùn)練,要根據(jù)場(chǎng)景采數(shù)據(jù)、標(biāo)數(shù)據(jù),標(biāo)注的數(shù)據(jù)量和質(zhì)量是制約模型效果的瓶頸。而預(yù)訓(xùn)練AI大模型采用的是自監(jiān)督學(xué)習(xí)的方式,不再需要人為標(biāo)注數(shù)據(jù)。用無標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)做預(yù)訓(xùn)練,基礎(chǔ)模型學(xué)習(xí)的數(shù)據(jù)越來越大,同時(shí)模型也越來越大,再結(jié)合面向場(chǎng)景的遷移學(xué)習(xí)解決了很多問題。這是非常重要的技術(shù)突破,意味著有了一個(gè)方法可以高效地從井噴式產(chǎn)生的數(shù)據(jù)中進(jìn)行學(xué)習(xí)。”4月16日,百度集團(tuán)副總裁吳甜在百度認(rèn)知AI創(chuàng)意賽決賽現(xiàn)場(chǎng)的演講中表示。
AI大模型的的開發(fā)范式能把天然存在的大量數(shù)據(jù)利用起來,打破原來一定要精標(biāo)數(shù)據(jù)才能學(xué)習(xí)的瓶頸。吳甜在講解時(shí)對(duì)其意義作了一個(gè)生動(dòng)比喻,“就如同是找到一種方法,從‘原油’中提取出來‘成品油’?!睆倪@里,某種程度上也能窺見科技巨頭們對(duì)AI大模型的重視由來。
真實(shí)AI落地場(chǎng)景的碎片化使得傳統(tǒng)定制化、作坊式的模型開發(fā)方式無法復(fù)用和積累,每個(gè)新場(chǎng)景都需要重復(fù)一遍整個(gè)模型開發(fā)過程,AI開發(fā)的高成本使其在真實(shí)世界舉步維艱。
AI預(yù)訓(xùn)練大模型如何解決這個(gè)問題?
大模型的基本原理是什么,如何落地應(yīng)用?
吳甜在演講開頭拋出問題,“在以往模型訓(xùn)練需要大量的數(shù)據(jù)標(biāo)注才能訓(xùn)練出足夠精確的模型。然而這樣的精標(biāo)數(shù)據(jù)成本非常高昂,有沒有可能讓模型的數(shù)據(jù)本身不再成為瓶頸?”
預(yù)訓(xùn)練技術(shù)帶來了這樣的可能性。“用自監(jiān)督學(xué)習(xí)方法讓模型對(duì)海量無標(biāo)注數(shù)據(jù)中的規(guī)律和知識(shí)進(jìn)行提煉、學(xué)習(xí),這樣形成的預(yù)訓(xùn)練大模型就成為基礎(chǔ)模型。在基礎(chǔ)模型之上,當(dāng)面向任務(wù)和場(chǎng)景應(yīng)用時(shí),只需少量的任務(wù)標(biāo)注數(shù)據(jù),通過微調(diào)就可以得到在應(yīng)用場(chǎng)景中非常好用的模型。”吳甜解答。
類比人的學(xué)習(xí)來看,人的學(xué)習(xí)可以分兩段:通識(shí)教育與專業(yè)教育。預(yù)訓(xùn)練大模型相當(dāng)于解決AI模型的通識(shí)教育。
如何理解預(yù)訓(xùn)練大模型中的自監(jiān)督學(xué)習(xí)?即不通過人工標(biāo)注,而是通過自我構(gòu)造監(jiān)督信號(hào)進(jìn)行學(xué)習(xí)。吳甜分享了一個(gè)例子來說明其中一種方法。在模型訓(xùn)練中,如果把“中國(guó)的首都是北京”這句話中的“北京”蓋住,讓模型去猜中國(guó)的首都是哪里,模型可能會(huì)猜一個(gè)城市,再把蓋的地方翻開反饋模型正確還是錯(cuò)誤,模型也就得到了反饋。這就是自監(jiān)督學(xué)習(xí)中的一種方式,完形填空。
用的時(shí)候會(huì)怎么樣呢?吳甜分享了百度文心大模型在醫(yī)療行業(yè)當(dāng)中的應(yīng)用。
病案質(zhì)量控制一直是醫(yī)院的痛點(diǎn)需求。在醫(yī)院的病案室,工作人員每天要核對(duì)大量病案,對(duì)其中病歷進(jìn)行質(zhì)量抽檢?!岸卺t(yī)院中全科醫(yī)生實(shí)際上非常非常少,在病案室工作的醫(yī)生由于自己專業(yè)領(lǐng)域知識(shí)的限制,其實(shí)無法做到對(duì)所有科室的病歷都有非常準(zhǔn)確的分析和判斷。他們每天大概能進(jìn)行10%的抽樣,對(duì)非自己專業(yè)的部分,很多只能做到匹配字面內(nèi)容,但難以理解其中深刻語(yǔ)義含義。所以,病案室的非常希望提升工作效率。”吳甜介紹道。
文心大模型的解決辦法是,在基礎(chǔ)模型上加入醫(yī)學(xué)專業(yè)知識(shí)、藥典、醫(yī)學(xué)大百科等一系列知識(shí),再次訓(xùn)練得到醫(yī)療行業(yè)相應(yīng)模型,在應(yīng)用中,通過進(jìn)一步針對(duì)臨床數(shù)據(jù)的持續(xù)學(xué)習(xí),掌握經(jīng)驗(yàn)知識(shí)?!白罱K模型掌握的知識(shí)量已經(jīng)遠(yuǎn)超出一位醫(yī)學(xué)博士,已經(jīng)用在病案室的病歷質(zhì)控的工作中,可以100%地進(jìn)行病歷的智能掃描分析,帶來了非常大的效率提升?!眳翘鸾榻B道。
百度自2019年開始預(yù)訓(xùn)練模型研發(fā),2019年3月,百度發(fā)布中國(guó)首個(gè)正式開放的預(yù)訓(xùn)練模型ERNIE1.0;2021年12月,ERNIE 3.0升級(jí)為全球首個(gè)知識(shí)增強(qiáng)千億大模型鵬城-百度?文心。同時(shí),伴隨其中的還有圖、文等多模態(tài)之間的ERNIE-ViLG跨模態(tài)模型以及對(duì)話模型PLATO系列。
百度在這一系列進(jìn)展背后的基本思路是什么?“首先,我們?cè)谧约旱臉I(yè)務(wù)場(chǎng)景中不斷地使用、驗(yàn)證、迭代。文心大模型是來源于產(chǎn)業(yè)實(shí)踐,同時(shí)服務(wù)于產(chǎn)業(yè)實(shí)踐,在實(shí)踐當(dāng)中建設(shè)起來的大模型。進(jìn)一步具體理解“產(chǎn)業(yè)級(jí)”的含義,首先其數(shù)據(jù)來源于產(chǎn)業(yè),在實(shí)際的產(chǎn)業(yè)實(shí)踐當(dāng)中學(xué)習(xí)到知識(shí)規(guī)律。第二,在服務(wù)于產(chǎn)業(yè)時(shí),不單單只有模型可調(diào)用,還有配套的工具和平臺(tái),用以幫助使用者更方便地用起來。
文心大模型系列所采取的技術(shù)路線是知識(shí)增強(qiáng),將大規(guī)模的知識(shí)和海量的無結(jié)構(gòu)數(shù)據(jù)進(jìn)行融合學(xué)習(xí),即以知識(shí)指導(dǎo)學(xué)習(xí),好處就在于學(xué)習(xí)效率更高,可解釋性更好。通過引入大規(guī)模知識(shí)圖譜,文心大模型系列只用百億級(jí)參數(shù)規(guī)模就在語(yǔ)言模型權(quán)威測(cè)評(píng)SuperGlue上登頂全球榜首,超越人類水平0.8個(gè)百分點(diǎn)。
這樣的技術(shù)路線,需要解決知識(shí)與深度學(xué)習(xí)結(jié)合的難題,以吳甜的話說“目前還有三個(gè)難題我們一直在探索”:第一個(gè)難點(diǎn)在于可用知識(shí)稀疏?!半m然知識(shí)特別多,但真正可用的知識(shí)是稀疏的,尤其是結(jié)構(gòu)化的知識(shí)。所以,怎么用無監(jiān)督方法自動(dòng)提煉出可用的知識(shí),這本身就是挺大的難題,這個(gè)難題我們一直在找各種各樣的可能創(chuàng)新方法去解決。知識(shí)源源不斷動(dòng)態(tài)產(chǎn)生,第二個(gè)難點(diǎn)在于大模型怎樣能學(xué)了新知識(shí)不忘舊知識(shí)?!?/p>
“第三個(gè)難點(diǎn)在于怎樣把已結(jié)構(gòu)化表示的知識(shí)和數(shù)據(jù)中的非結(jié)構(gòu)化隱式知識(shí)進(jìn)行統(tǒng)一。百度知識(shí)圖譜已經(jīng)有高達(dá)5500知識(shí),這么大規(guī)模知識(shí),大模型要充分地學(xué)習(xí)進(jìn)去,還有不少問題要解。”吳甜繼續(xù)說道。
據(jù)吳甜介紹,“今年是文心大模型產(chǎn)業(yè)落地關(guān)鍵年”。目前,文心大模型已大規(guī)模應(yīng)用于百度內(nèi)部的各類產(chǎn)品,包含搜索、信息流、小度智能屏、百度地圖等,顯著提升了產(chǎn)品智能化體驗(yàn)。基于文心的開放能力,日調(diào)量也超過了五千萬(wàn)次。
目前,文心大模型已通過飛槳開源開放平臺(tái)、百度智能云等應(yīng)用于工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè),個(gè)人、企業(yè)開發(fā)者數(shù)量超6萬(wàn)。在保險(xiǎn)領(lǐng)域應(yīng)用中,文心大模型的智能解析能力,能使文本處理效率提升30倍;在人力資源領(lǐng)域應(yīng)用中,文心大模型能實(shí)現(xiàn)候選人信息智能分類,模型識(shí)別準(zhǔn)確率達(dá)到99%;在醫(yī)療領(lǐng)域應(yīng)用中,文心大模型將每份病歷的檢查時(shí)間,從30分鐘縮短到了秒級(jí)別。
這一套技術(shù)機(jī)制大幅度降低了大模型應(yīng)用的門檻——只要把場(chǎng)景中的問題定義出來,進(jìn)行一些少量的數(shù)據(jù)標(biāo)注,交給大模型再進(jìn)行一次學(xué)習(xí),即可得到適合自己場(chǎng)景的一個(gè)好的AI應(yīng)用。
是挑戰(zhàn)也是壁壘:大模型的技術(shù)難點(diǎn)
對(duì)于投入如此高的文心大模型如何營(yíng)收,吳甜對(duì)澎湃新聞(www.thepaper.cn)表示,“文心大模型一邊做技術(shù)創(chuàng)新,一邊做落地應(yīng)用,對(duì)于百度來說是一項(xiàng)基礎(chǔ)性質(zhì)的工作。它的收益來源于兩個(gè)方面:一方面是百度自身的業(yè)務(wù)即需要使用;另外一方面是進(jìn)一步和行業(yè)客戶的場(chǎng)景結(jié)合,形成對(duì)客戶的價(jià)值?!?/p>
這個(gè)技術(shù)創(chuàng)新過程中充滿了挑戰(zhàn)。在吳甜看來,大模型訓(xùn)練最主要的挑戰(zhàn)是在于“大”——數(shù)據(jù)量非常大,模型非常大。
大模型的訓(xùn)練需要解決在算力有限的情況下,如何在給定資源上訓(xùn)練,做到高效存儲(chǔ)、高效訓(xùn)練計(jì)算等,同時(shí)要保證模型最后是收斂的、可用的。
在解決如何在有限資源上訓(xùn)練,百度采用4D混合訓(xùn)練技術(shù),在保證精度和收斂性基礎(chǔ)上提升訓(xùn)練效率,實(shí)現(xiàn)超大規(guī)模模型的訓(xùn)練。4D混合訓(xùn)練技術(shù)在單機(jī)內(nèi)使用張量模型并行和分組參數(shù)切片組合的策略保證低通信成本,在此基礎(chǔ)上疊加流水線模型并行策略,實(shí)現(xiàn)多臺(tái)機(jī)器共同分擔(dān)千億規(guī)模模型的訓(xùn)練,最后再疊加數(shù)據(jù)并行策略來增加并發(fā)數(shù)量,提升整體訓(xùn)練速度。使用飛槳的混合并行功能,可以靈活的根據(jù)擁有的算力的顯存大小、通信帶寬和節(jié)點(diǎn)數(shù)量進(jìn)行靈活的并行策略組合,進(jìn)行高效的大模型訓(xùn)練。
在百度跟鵬城實(shí)驗(yàn)室合作的鵬城-百度·文心大模型的項(xiàng)目里,訓(xùn)練中使用60臺(tái)服務(wù)器作為混合并行的一組單元機(jī)器,訓(xùn)練過程中可以采用多組機(jī)器來進(jìn)行并行能力擴(kuò)展,加速訓(xùn)練進(jìn)度。
那么怎么判斷訓(xùn)練出的大模型好不好?
一個(gè)很常見的認(rèn)知是看參數(shù)數(shù)量,“參數(shù)規(guī)模提升確實(shí)有更好的效果,我們用文心不同體量的ERNIE模型做過對(duì)比,隨著參數(shù)規(guī)模增大,效果提升?!眳翘鹫f道,“但并不是簡(jiǎn)單的越大越好,更重要的還是模型能力強(qiáng)?!?/p>
吳甜認(rèn)為,評(píng)估一個(gè)大模型的好壞,更重要的標(biāo)準(zhǔn)在它的效果和泛化能力,是否在面對(duì)新問題時(shí)能更高效地學(xué)出更強(qiáng)的能力。
對(duì)于文心大模型的下一步發(fā)展,吳甜認(rèn)為有兩個(gè)方面,“一方面,技術(shù)本身還有創(chuàng)新空間,我們也還在不斷研究怎樣能讓這些模型有更強(qiáng)的能力表現(xiàn)。另一方面,實(shí)用性會(huì)是我們接下來很關(guān)注的問題。以文心舉例,文心最開始就是密切關(guān)注實(shí)用性,從發(fā)展歷程上可以看到,ERNIE并不以迅速發(fā)布一個(gè)更大的模型為目標(biāo),而是做出一款模型后,在落地應(yīng)用中檢驗(yàn)效果,并在實(shí)用過程中調(diào)整模型設(shè)計(jì)?!?/p>
在這個(gè)實(shí)踐過程中,百度發(fā)現(xiàn)大模型和場(chǎng)景結(jié)合時(shí),并不是只要有一個(gè)通用大模型就能徹底解決。吳甜表示,“我們一直在通用基礎(chǔ)模型的基礎(chǔ)上,開展結(jié)合了行業(yè)中領(lǐng)域數(shù)據(jù)、知識(shí)的大模型研究,即行業(yè)大模型。文心全景圖里目前已有兩個(gè)行業(yè)大模型,一個(gè)是金融,一個(gè)是醫(yī)療。”
當(dāng)下,我們正迎來新一輪科技革命和產(chǎn)業(yè)變革,每一次產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力都是科技創(chuàng)新。吳甜表示,希望通過大模型與國(guó)產(chǎn)深度學(xué)習(xí)框架融合發(fā)展,打造自主創(chuàng)新的AI底座,真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?;瘧?yīng)用的產(chǎn)業(yè)價(jià)值。
關(guān)鍵詞:
相關(guān)閱讀
- 央行:未來三個(gè)月17.1%居民打算購(gòu)房 三...
- 成都“智慧大腦”:數(shù)字城管助力城市精...
- 新增10萬(wàn)短期用工,持續(xù)綠色減碳,強(qiáng)化...
- 國(guó)家發(fā)改委:2022年10月10日國(guó)內(nèi)成品油...
- 拿證速遞 | 招商虹璽于10月11日開啟認(rèn)...
- 和晨生物完成數(shù)千萬(wàn)元天使輪融資-天天頭條
- 湖北神農(nóng)架:公積金貸款認(rèn)貸不認(rèn)房 延...
- 首開售罄 大虹橋核心區(qū)紅盤蟠龍府即將...
- 閔行春申稀缺房源 越秀仁恒天樾園和明...
- 鄭州:首套個(gè)人住房公積金五年期以上利...
- 發(fā)揮數(shù)字化電商平臺(tái)優(yōu)勢(shì),2022蓉城巾幗...
- 海天味業(yè)回應(yīng)添加劑“雙標(biāo)”問題:國(guó)內(nèi)...