9月21日,青海數(shù)據(jù)要素生態(tài)大會在西寧舉行,本次大會以“激活數(shù)據(jù)要素價值,賦能青海高質(zhì)量發(fā)展”為核心主題,會聚了眾多行業(yè)領(lǐng)袖與專家,共同探討數(shù)據(jù)要素與區(qū)域經(jīng)濟的深度融合路徑。
會議期間,中國信息通信研究院人工智能研究所平臺與工程化部副主任李蓀,以“站在AI產(chǎn)業(yè)與企業(yè)端”的務(wù)實視角,結(jié)合團隊研究實踐,深入剖析了數(shù)據(jù)在人工智能領(lǐng)域的關(guān)鍵地位及未來趨勢。
近年來,人工智能的發(fā)展有目共睹,AI大模型的創(chuàng)新應(yīng)用也逐步進入日常生產(chǎn)生活。隨著人工智能的模型訓(xùn)練及可信AI的研究實踐加速深入,人工智能領(lǐng)域正在經(jīng)歷一場深刻的范式變革。
轉(zhuǎn)向“以數(shù)據(jù)為中心”
自2022年開始,人工智能研究和應(yīng)用重點逐步從“模型為中心”(Model-centricAI,MCAI)轉(zhuǎn)向“數(shù)據(jù)為中心”(Data-centricAI,DCAI)。也就是說,在模型相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。
“人工智能每次階段性的進步,數(shù)據(jù)都扮演著重要角色,尤其在大模型時代,海量、高質(zhì)量、多樣化的數(shù)據(jù)集,成為拉開模型能力差距的關(guān)鍵要素。”李蓀認(rèn)為,人工智能持續(xù)演進對數(shù)據(jù)集提出了新要求,而且,大模型技術(shù)對數(shù)據(jù)集質(zhì)量和工程路線也提出了更高要求。
在技術(shù)層面,大模型對數(shù)據(jù)集的要求主要體現(xiàn)在三個方面,包括規(guī)模可擴展性增強、多任務(wù)適應(yīng)性增強以及能力可塑性增強。
具體來說,參數(shù)規(guī)模和計算量的增加帶來了模型性能的持續(xù)提升,而一個模型能同時支持多種任務(wù)和多個模態(tài),甚至實現(xiàn)跨模態(tài),已成為新的技術(shù)追求。為了實現(xiàn)這些目標(biāo),迫切需要強化四類數(shù)據(jù)集的供給,包括多模態(tài)數(shù)據(jù)集、具身智能數(shù)據(jù)集、推理思維鏈數(shù)據(jù)集和長視頻數(shù)據(jù)集。
李蓀表示,這些數(shù)據(jù)集將使模型更加全面和精準(zhǔn)地理解和處理任務(wù),增強機器人在多樣化環(huán)境和任務(wù)中的適應(yīng)性和決策智能,并促進模型推理能力的大幅提升。
此外,大模型的研究訓(xùn)練中,進一步強化學(xué)習(xí)新范式聚焦于高質(zhì)量推理型數(shù)據(jù)集,通過收集大量的推理相關(guān)訓(xùn)練樣本和非推理訓(xùn)練樣本,推理訓(xùn)練監(jiān)督微調(diào)數(shù)據(jù)占比大幅減少,從而提高了模型的推理能力。
高質(zhì)量數(shù)據(jù)集建設(shè)
數(shù)據(jù)產(chǎn)業(yè)和人工智能的發(fā)展離不開政策的助力,近年來,國家部委和地方政府加大對“人工智能+高質(zhì)量數(shù)據(jù)集”的支持,政策協(xié)同效應(yīng)開始顯現(xiàn)。
作為數(shù)據(jù)要素領(lǐng)域的行動指南,《“數(shù)據(jù)要素×”三年行動計劃》,強調(diào)打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集。2025年國務(wù)院國資委發(fā)布首批30項央企高質(zhì)量數(shù)據(jù)集,覆蓋了能源、物流等關(guān)鍵領(lǐng)域。
同時,《關(guān)于促進數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實施意見》的落地,提出通過提升數(shù)據(jù)集質(zhì)量、擴大應(yīng)用場景、強化技術(shù)創(chuàng)新等舉措,為人工智能產(chǎn)業(yè)發(fā)展提供關(guān)鍵支撐。截至2025年3月底,沈陽、保定等7個數(shù)據(jù)標(biāo)注基地建設(shè)高質(zhì)量數(shù)據(jù)集335個。
而且,從地方層面的實踐來看,高質(zhì)量數(shù)據(jù)集建設(shè)已經(jīng)在各地開花。比如,上海市明確“2025年形成1000個高質(zhì)量數(shù)據(jù)集”的目標(biāo),蘇州市發(fā)布首批30個工業(yè)、交通領(lǐng)域數(shù)據(jù)集,北京市、山東省等11個地區(qū)則通過獎補政策激勵數(shù)據(jù)建設(shè)等。
李蓀提出,“AI與數(shù)據(jù)的融合,最終要形成產(chǎn)業(yè)‘飛輪’”,優(yōu)質(zhì)數(shù)據(jù)集能支撐企業(yè)研發(fā)出更優(yōu)行業(yè)大模型,而大模型應(yīng)用落地后,又會采集到更多真實場景數(shù)據(jù),反哺數(shù)據(jù)集迭代。基于此,她認(rèn)為,未來擁有高質(zhì)量數(shù)據(jù)的企業(yè),會持續(xù)拉開與同行的差距。
不過,在AI與數(shù)據(jù)的融合落地實踐中,仍存在一些問題。李蓀指出,當(dāng)前企業(yè)在構(gòu)建數(shù)據(jù)集時普遍面臨目標(biāo)定位模糊、實施路徑碎片化以及技術(shù)底座薄弱等挑戰(zhàn)。許多企業(yè)陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),未能將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價值難以轉(zhuǎn)化為模型性能的實際提升。
展望未來,李蓀表示,隨著技術(shù)的不斷進步和應(yīng)用場景的持續(xù)拓展,數(shù)據(jù)與人工智能的深度融合將成為不可逆轉(zhuǎn)的趨勢。