觀察丨AI大模型熱：如何從數(shù)據(jù)井噴的“原油”中煉“成品油

2022-04-21 21:51:16 來源:澎湃新聞

近幾年，百度、谷歌、微軟、英偉達(dá)等“科技巨頭”紛紛投入大量人力、財(cái)力相繼推出各自的巨量模型，知曉度最高的如OpenAI的NLP大模型GPT-3，模型參數(shù)1750億，耗資超過1200萬(wàn)美元。

各家為何看好AI大模型，目前落地進(jìn)展如何？科技革命與產(chǎn)業(yè)變革如何互動(dòng)，AI大模型在當(dāng)下的產(chǎn)業(yè)智能化變革中有怎樣應(yīng)用潛力？

“AI模型訓(xùn)練，要根據(jù)場(chǎng)景采數(shù)據(jù)、標(biāo)數(shù)據(jù)，標(biāo)注的數(shù)據(jù)量和質(zhì)量是制約模型效果的瓶頸。而預(yù)訓(xùn)練AI大模型采用的是自監(jiān)督學(xué)習(xí)的方式，不再需要人為標(biāo)注數(shù)據(jù)。用無標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)做預(yù)訓(xùn)練，基礎(chǔ)模型學(xué)習(xí)的數(shù)據(jù)越來越大，同時(shí)模型也越來越大，再結(jié)合面向場(chǎng)景的遷移學(xué)習(xí)解決了很多問題。這是非常重要的技術(shù)突破，意味著有了一個(gè)方法可以高效地從井噴式產(chǎn)生的數(shù)據(jù)中進(jìn)行學(xué)習(xí)。”4月16日，百度集團(tuán)副總裁吳甜在百度認(rèn)知AI創(chuàng)意賽決賽現(xiàn)場(chǎng)的演講中表示。

AI大模型的的開發(fā)范式能把天然存在的大量數(shù)據(jù)利用起來，打破原來一定要精標(biāo)數(shù)據(jù)才能學(xué)習(xí)的瓶頸。吳甜在講解時(shí)對(duì)其意義作了一個(gè)生動(dòng)比喻，“就如同是找到一種方法，從‘原油’中提取出來‘成品油’?！睆倪@里，某種程度上也能窺見科技巨頭們對(duì)AI大模型的重視由來。

真實(shí)AI落地場(chǎng)景的碎片化使得傳統(tǒng)定制化、作坊式的模型開發(fā)方式無法復(fù)用和積累，每個(gè)新場(chǎng)景都需要重復(fù)一遍整個(gè)模型開發(fā)過程，AI開發(fā)的高成本使其在真實(shí)世界舉步維艱。

AI預(yù)訓(xùn)練大模型如何解決這個(gè)問題？

大模型的基本原理是什么，如何落地應(yīng)用？

吳甜在演講開頭拋出問題，“在以往模型訓(xùn)練需要大量的數(shù)據(jù)標(biāo)注才能訓(xùn)練出足夠精確的模型。然而這樣的精標(biāo)數(shù)據(jù)成本非常高昂，有沒有可能讓模型的數(shù)據(jù)本身不再成為瓶頸？”

預(yù)訓(xùn)練技術(shù)帶來了這樣的可能性。“用自監(jiān)督學(xué)習(xí)方法讓模型對(duì)海量無標(biāo)注數(shù)據(jù)中的規(guī)律和知識(shí)進(jìn)行提煉、學(xué)習(xí)，這樣形成的預(yù)訓(xùn)練大模型就成為基礎(chǔ)模型。在基礎(chǔ)模型之上，當(dāng)面向任務(wù)和場(chǎng)景應(yīng)用時(shí)，只需少量的任務(wù)標(biāo)注數(shù)據(jù)，通過微調(diào)就可以得到在應(yīng)用場(chǎng)景中非常好用的模型。”吳甜解答。

類比人的學(xué)習(xí)來看，人的學(xué)習(xí)可以分兩段：通識(shí)教育與專業(yè)教育。預(yù)訓(xùn)練大模型相當(dāng)于解決AI模型的通識(shí)教育。

如何理解預(yù)訓(xùn)練大模型中的自監(jiān)督學(xué)習(xí)？即不通過人工標(biāo)注，而是通過自我構(gòu)造監(jiān)督信號(hào)進(jìn)行學(xué)習(xí)。吳甜分享了一個(gè)例子來說明其中一種方法。在模型訓(xùn)練中，如果把“中國(guó)的首都是北京”這句話中的“北京”蓋住，讓模型去猜中國(guó)的首都是哪里，模型可能會(huì)猜一個(gè)城市，再把蓋的地方翻開反饋模型正確還是錯(cuò)誤，模型也就得到了反饋。這就是自監(jiān)督學(xué)習(xí)中的一種方式，完形填空。

用的時(shí)候會(huì)怎么樣呢？吳甜分享了百度文心大模型在醫(yī)療行業(yè)當(dāng)中的應(yīng)用。

病案質(zhì)量控制一直是醫(yī)院的痛點(diǎn)需求。在醫(yī)院的病案室，工作人員每天要核對(duì)大量病案，對(duì)其中病歷進(jìn)行質(zhì)量抽檢?！岸卺t(yī)院中全科醫(yī)生實(shí)際上非常非常少，在病案室工作的醫(yī)生由于自己專業(yè)領(lǐng)域知識(shí)的限制，其實(shí)無法做到對(duì)所有科室的病歷都有非常準(zhǔn)確的分析和判斷。他們每天大概能進(jìn)行10%的抽樣，對(duì)非自己專業(yè)的部分，很多只能做到匹配字面內(nèi)容，但難以理解其中深刻語(yǔ)義含義。所以，病案室的非常希望提升工作效率。”吳甜介紹道。

文心大模型的解決辦法是，在基礎(chǔ)模型上加入醫(yī)學(xué)專業(yè)知識(shí)、藥典、醫(yī)學(xué)大百科等一系列知識(shí)，再次訓(xùn)練得到醫(yī)療行業(yè)相應(yīng)模型，在應(yīng)用中，通過進(jìn)一步針對(duì)臨床數(shù)據(jù)的持續(xù)學(xué)習(xí)，掌握經(jīng)驗(yàn)知識(shí)?！白罱K模型掌握的知識(shí)量已經(jīng)遠(yuǎn)超出一位醫(yī)學(xué)博士，已經(jīng)用在病案室的病歷質(zhì)控的工作中，可以100%地進(jìn)行病歷的智能掃描分析，帶來了非常大的效率提升?！眳翘鸾榻B道。

百度自2019年開始預(yù)訓(xùn)練模型研發(fā)，2019年3月，百度發(fā)布中國(guó)首個(gè)正式開放的預(yù)訓(xùn)練模型ERNIE1.0；2021年12月，ERNIE 3.0升級(jí)為全球首個(gè)知識(shí)增強(qiáng)千億大模型鵬城-百度?文心。同時(shí)，伴隨其中的還有圖、文等多模態(tài)之間的ERNIE-ViLG跨模態(tài)模型以及對(duì)話模型PLATO系列。

百度在這一系列進(jìn)展背后的基本思路是什么？“首先，我們?cè)谧约旱臉I(yè)務(wù)場(chǎng)景中不斷地使用、驗(yàn)證、迭代。文心大模型是來源于產(chǎn)業(yè)實(shí)踐，同時(shí)服務(wù)于產(chǎn)業(yè)實(shí)踐，在實(shí)踐當(dāng)中建設(shè)起來的大模型。進(jìn)一步具體理解“產(chǎn)業(yè)級(jí)”的含義，首先其數(shù)據(jù)來源于產(chǎn)業(yè)，在實(shí)際的產(chǎn)業(yè)實(shí)踐當(dāng)中學(xué)習(xí)到知識(shí)規(guī)律。第二，在服務(wù)于產(chǎn)業(yè)時(shí)，不單單只有模型可調(diào)用，還有配套的工具和平臺(tái)，用以幫助使用者更方便地用起來。

文心大模型系列所采取的技術(shù)路線是知識(shí)增強(qiáng)，將大規(guī)模的知識(shí)和海量的無結(jié)構(gòu)數(shù)據(jù)進(jìn)行融合學(xué)習(xí)，即以知識(shí)指導(dǎo)學(xué)習(xí)，好處就在于學(xué)習(xí)效率更高，可解釋性更好。通過引入大規(guī)模知識(shí)圖譜，文心大模型系列只用百億級(jí)參數(shù)規(guī)模就在語(yǔ)言模型權(quán)威測(cè)評(píng)SuperGlue上登頂全球榜首，超越人類水平0.8個(gè)百分點(diǎn)。

這樣的技術(shù)路線，需要解決知識(shí)與深度學(xué)習(xí)結(jié)合的難題，以吳甜的話說“目前還有三個(gè)難題我們一直在探索”：第一個(gè)難點(diǎn)在于可用知識(shí)稀疏?！半m然知識(shí)特別多，但真正可用的知識(shí)是稀疏的，尤其是結(jié)構(gòu)化的知識(shí)。所以，怎么用無監(jiān)督方法自動(dòng)提煉出可用的知識(shí)，這本身就是挺大的難題，這個(gè)難題我們一直在找各種各樣的可能創(chuàng)新方法去解決。知識(shí)源源不斷動(dòng)態(tài)產(chǎn)生，第二個(gè)難點(diǎn)在于大模型怎樣能學(xué)了新知識(shí)不忘舊知識(shí)?！?/p>

“第三個(gè)難點(diǎn)在于怎樣把已結(jié)構(gòu)化表示的知識(shí)和數(shù)據(jù)中的非結(jié)構(gòu)化隱式知識(shí)進(jìn)行統(tǒng)一。百度知識(shí)圖譜已經(jīng)有高達(dá)5500知識(shí)，這么大規(guī)模知識(shí)，大模型要充分地學(xué)習(xí)進(jìn)去，還有不少問題要解。”吳甜繼續(xù)說道。

據(jù)吳甜介紹，“今年是文心大模型產(chǎn)業(yè)落地關(guān)鍵年”。目前，文心大模型已大規(guī)模應(yīng)用于百度內(nèi)部的各類產(chǎn)品，包含搜索、信息流、小度智能屏、百度地圖等，顯著提升了產(chǎn)品智能化體驗(yàn)。基于文心的開放能力，日調(diào)量也超過了五千萬(wàn)次。

目前，文心大模型已通過飛槳開源開放平臺(tái)、百度智能云等應(yīng)用于工業(yè)、能源、金融、通信、媒體、教育等各行各業(yè)，個(gè)人、企業(yè)開發(fā)者數(shù)量超6萬(wàn)。在保險(xiǎn)領(lǐng)域應(yīng)用中，文心大模型的智能解析能力，能使文本處理效率提升30倍；在人力資源領(lǐng)域應(yīng)用中，文心大模型能實(shí)現(xiàn)候選人信息智能分類，模型識(shí)別準(zhǔn)確率達(dá)到99%；在醫(yī)療領(lǐng)域應(yīng)用中，文心大模型將每份病歷的檢查時(shí)間，從30分鐘縮短到了秒級(jí)別。

這一套技術(shù)機(jī)制大幅度降低了大模型應(yīng)用的門檻——只要把場(chǎng)景中的問題定義出來，進(jìn)行一些少量的數(shù)據(jù)標(biāo)注，交給大模型再進(jìn)行一次學(xué)習(xí)，即可得到適合自己場(chǎng)景的一個(gè)好的AI應(yīng)用。

是挑戰(zhàn)也是壁壘：大模型的技術(shù)難點(diǎn)

對(duì)于投入如此高的文心大模型如何營(yíng)收，吳甜對(duì)澎湃新聞（www.thepaper.cn）表示,“文心大模型一邊做技術(shù)創(chuàng)新，一邊做落地應(yīng)用，對(duì)于百度來說是一項(xiàng)基礎(chǔ)性質(zhì)的工作。它的收益來源于兩個(gè)方面：一方面是百度自身的業(yè)務(wù)即需要使用；另外一方面是進(jìn)一步和行業(yè)客戶的場(chǎng)景結(jié)合，形成對(duì)客戶的價(jià)值?！?/p>

這個(gè)技術(shù)創(chuàng)新過程中充滿了挑戰(zhàn)。在吳甜看來，大模型訓(xùn)練最主要的挑戰(zhàn)是在于“大”——數(shù)據(jù)量非常大，模型非常大。

大模型的訓(xùn)練需要解決在算力有限的情況下，如何在給定資源上訓(xùn)練，做到高效存儲(chǔ)、高效訓(xùn)練計(jì)算等，同時(shí)要保證模型最后是收斂的、可用的。

在解決如何在有限資源上訓(xùn)練，百度采用4D混合訓(xùn)練技術(shù)，在保證精度和收斂性基礎(chǔ)上提升訓(xùn)練效率，實(shí)現(xiàn)超大規(guī)模模型的訓(xùn)練。4D混合訓(xùn)練技術(shù)在單機(jī)內(nèi)使用張量模型并行和分組參數(shù)切片組合的策略保證低通信成本，在此基礎(chǔ)上疊加流水線模型并行策略，實(shí)現(xiàn)多臺(tái)機(jī)器共同分擔(dān)千億規(guī)模模型的訓(xùn)練，最后再疊加數(shù)據(jù)并行策略來增加并發(fā)數(shù)量，提升整體訓(xùn)練速度。使用飛槳的混合并行功能，可以靈活的根據(jù)擁有的算力的顯存大小、通信帶寬和節(jié)點(diǎn)數(shù)量進(jìn)行靈活的并行策略組合，進(jìn)行高效的大模型訓(xùn)練。

在百度跟鵬城實(shí)驗(yàn)室合作的鵬城-百度·文心大模型的項(xiàng)目里，訓(xùn)練中使用60臺(tái)服務(wù)器作為混合并行的一組單元機(jī)器，訓(xùn)練過程中可以采用多組機(jī)器來進(jìn)行并行能力擴(kuò)展，加速訓(xùn)練進(jìn)度。

那么怎么判斷訓(xùn)練出的大模型好不好？

一個(gè)很常見的認(rèn)知是看參數(shù)數(shù)量，“參數(shù)規(guī)模提升確實(shí)有更好的效果，我們用文心不同體量的ERNIE模型做過對(duì)比，隨著參數(shù)規(guī)模增大，效果提升?！眳翘鹫f道，“但并不是簡(jiǎn)單的越大越好，更重要的還是模型能力強(qiáng)?！?/p>

吳甜認(rèn)為，評(píng)估一個(gè)大模型的好壞，更重要的標(biāo)準(zhǔn)在它的效果和泛化能力，是否在面對(duì)新問題時(shí)能更高效地學(xué)出更強(qiáng)的能力。

對(duì)于文心大模型的下一步發(fā)展，吳甜認(rèn)為有兩個(gè)方面，“一方面，技術(shù)本身還有創(chuàng)新空間，我們也還在不斷研究怎樣能讓這些模型有更強(qiáng)的能力表現(xiàn)。另一方面，實(shí)用性會(huì)是我們接下來很關(guān)注的問題。以文心舉例，文心最開始就是密切關(guān)注實(shí)用性，從發(fā)展歷程上可以看到，ERNIE并不以迅速發(fā)布一個(gè)更大的模型為目標(biāo)，而是做出一款模型后，在落地應(yīng)用中檢驗(yàn)效果，并在實(shí)用過程中調(diào)整模型設(shè)計(jì)?！?/p>

在這個(gè)實(shí)踐過程中，百度發(fā)現(xiàn)大模型和場(chǎng)景結(jié)合時(shí)，并不是只要有一個(gè)通用大模型就能徹底解決。吳甜表示，“我們一直在通用基礎(chǔ)模型的基礎(chǔ)上，開展結(jié)合了行業(yè)中領(lǐng)域數(shù)據(jù)、知識(shí)的大模型研究，即行業(yè)大模型。文心全景圖里目前已有兩個(gè)行業(yè)大模型，一個(gè)是金融，一個(gè)是醫(yī)療。”

當(dāng)下，我們正迎來新一輪科技革命和產(chǎn)業(yè)變革，每一次產(chǎn)業(yè)變革的核心驅(qū)動(dòng)力都是科技創(chuàng)新。吳甜表示，希望通過大模型與國(guó)產(chǎn)深度學(xué)習(xí)框架融合發(fā)展，打造自主創(chuàng)新的AI底座，真正發(fā)揮大模型驅(qū)動(dòng)AI規(guī)?；瘧?yīng)用的產(chǎn)業(yè)價(jià)值。

關(guān)鍵詞：

分享到：QQ空間新浪微博騰訊微博人人網(wǎng)微信百度搜藏開心網(wǎng)復(fù)制網(wǎng)址

相關(guān)閱讀

精彩推薦

国精品无码人妻一区二区三区,国产精品手机免费,国内精品久久久久久99,国产无遮挡18禁网站免费,国产精品熟女高潮视频

觀察丨AI大模型熱：如何從數(shù)據(jù)井噴的“原油”中煉“成品油