国产成人午夜视频_精品999_久久精品久久精品_仙人掌旅馆在线观看_成人在线国产_国产99999

首頁 > 活動線報 > 每日福利 > 科學家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡模型基礎,加快人工智能實現(xiàn)進程

科學家用STEM數(shù)據(jù)集評測神經(jīng)網(wǎng)絡模型基礎,加快人工智能實現(xiàn)進程

發(fā)布時間:2024-05-01 15:08:46來源: 15210273549

理工科 STEM 技能,是解決真實世界中諸多問題的基礎。譬如,探索蛋白質結構、證明數(shù)學定理、發(fā)現(xiàn)新藥物等。(編者注:STEM,即科學、技術、工程和數(shù)學四門學科英文首字母的縮寫。)

 

而對于人工智能領域來說,理解視覺-文本的多模態(tài)信息,則是掌握 STEM 技能的關鍵。

 

可是,現(xiàn)有的數(shù)據(jù)集主要集中在檢驗模型解決專家級別難題的能力上,難以反映模型在基礎知識方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺信息,又或者只關注 STEM 中某單一學科的能力。

 

另外,由于缺少細粒度的信息,該領域的科學家也無法更好地分析與改進神經(jīng)網(wǎng)絡模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內(nèi)容,既無法讓人充分信任,又不能幫助指導未來模型開發(fā)的方向。

 

更重要的是,由于缺乏和人類表現(xiàn)相關的數(shù)據(jù),因此科學家也不可能獲取到更具實際意義的模型表現(xiàn)參考,嚴重阻礙了人工智能的健康發(fā)展。

 

為了攻克上述局限性,近期,來自北京大學和美國圣路易斯華盛頓大學的研究團隊,不僅成功完成了首個多模態(tài) STEM 數(shù)據(jù)集的構建,還在此基礎上實現(xiàn)對大語言模型與多模態(tài)基礎模型的評測。

 

結果發(fā)現(xiàn),即使是目前最先進的人工智能模型,其 STEM 基礎水平也存在較大的提升空間,尚不具備解決更有難度的現(xiàn)實問題的能力。也就是說,與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評測效果(來源:ICLR 2024)

 

近日,相關論文以《測量神經(jīng)網(wǎng)絡模型的視覺-語言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國際表征學習大會(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據(jù)悉,該會議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開。

 

STEM 數(shù)據(jù)集相關資源如下。

 

評測鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學王晨光助理教授和北京大學張銘教授擔任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學,導師是張銘教授。

 

圖丨相關論文(來源:ICLR 2024)

 

 

搭建 STEM 數(shù)據(jù)集,全方位評測神經(jīng)網(wǎng)絡模型的基礎理工科能力

 

據(jù)王晨光介紹,課題組在確定研究目標和題目之后,便開始著手收集數(shù)據(jù)。

 

一向擅長于算法研究的團隊成員,在面對爬蟲編寫、數(shù)據(jù)清洗和去重等工作時不免有些犯難。盡管如此,他們還是迎難而上,設計了多種用于數(shù)據(jù)清洗和去重的規(guī)則,最終成功獲得了首個多模態(tài) STEM 數(shù)據(jù)集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來源:課題組)

 

值得一提的是,該數(shù)據(jù)集包含 448 個 STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

 

圖丨相關論文(來源:ICLR 2024)

 

接著,他們開始針對數(shù)據(jù)集進行評測與分析。

 

由于該數(shù)據(jù)集包含科目(科學、技術、工程、數(shù)學)、技能和年級三個維度標簽,因此研究人員選擇從這三個維度切入,對每個維度的數(shù)據(jù)數(shù)量分布、問題類型分布、問題長度分布等信息進行了詳盡分析。

 

與此同時,他們也針對每個科目,按照 6:2:2 的比例,劃分了訓練集、驗證集與未公開標簽的測試集。

 

隨后,研究人員又設計了模型評測方案。

 

其中,在選擇評測指標時,他們除了關注準確率,還重點使用全球范圍內(nèi)最被認可的在線習題網(wǎng)站之一(https://www.ixl.com/)的考試分數(shù)。

 

后者是基于該網(wǎng)站千萬用戶的真實考試成績得出的,與學生對知識的掌握程度呈正相關。當分數(shù)達到 90 以上(通常是小學生水平)時,就代表學生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分數(shù)與真實人類的考試結果進行比較。”王晨光表示。

 

這也正是該工作的一大亮點。原因在于,過去將人類的表現(xiàn)與人工智能做比較時,前者都是由相對較小的樣本(例如幾百到幾千人)總結出的,而該團隊的結果卻是基于千萬量級的數(shù)據(jù)得到的,可信度更高。

 

然后,在模型評測環(huán)節(jié),研究人員選擇使用當前主流的大基礎模型,包括 OpenAI 的多模態(tài) CLIP 模型,以及大語言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據(jù)模型判斷問題選項與圖片的匹配程度來做出選擇,后者則利用字幕模型為圖片生成描述,并利用語言模型選擇回答。

 

“我們評測了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型,發(fā)現(xiàn)在 0 樣本的設置下,模型的錯誤率很高。這表明現(xiàn)有模型無法直接真正地掌握這些知識。”王晨光表示。

 

進一步地,他們又利用劃分出的訓練數(shù)據(jù)集,對 CLIP 模型進行了微調(diào),發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升,綜合準確率從 54.4% 提升至 76.3%。不過,這離 90 分依然有一定差距。

 

除此之外,該課題組還對模型結果的各個側面進行了分析。

 

具體來說,首先,在年級層面,他們發(fā)現(xiàn)模型的測驗分數(shù)隨著題目所屬年級的升高而降低,這符合年級越高的題目難度就越高的預期。

 

圖丨測驗分數(shù)隨年級變化(來源:ICLR 2024)

 

其次,通過模型在不同技能上的評測表現(xiàn),他們發(fā)現(xiàn)模型在抽象知識與復雜推理任務上的表現(xiàn)欠佳。

 

另外,過去的經(jīng)驗表明,模型應該對正確答案有著較高的預測置信度,這代表著模型的校準度較好。

 

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過的模型,表現(xiàn)出了良好的校準性,模型的置信度與準確率呈現(xiàn)清晰的相關性。”王晨光說。

 

另一方面,他們在研究模型規(guī)模與效果之間關系的過程中,也發(fā)現(xiàn)了清晰的正相關關系。

 

與此同時,他們還分析了模型表現(xiàn)與問題長度、問題類型、選項數(shù)量等其它因素之間的關系,發(fā)現(xiàn)隨著問題變長、選項數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會下降。

 

除此之外,他們也評估了準確率與測驗考試分數(shù)這兩種指標的相關性,發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關。

 

“最終,在整體的評價指標上,我們確認即使是微調(diào)過的模型,與人類對應年級學生水平相比也有顯著差距。基于此,我們?nèi)匀恍枰獙ふ腋行У姆椒ǎ鼓P驼莆?STEM 知識技能。”王晨光說。

 

圖丨與人類表現(xiàn)比較(來源:ICLR 2024)

 

 

嘗試推出更多評測大語言模型的數(shù)據(jù)集,加快通用人工智能實現(xiàn)的進程

 

顯而易見,在該項研究中,STEM 數(shù)據(jù)集發(fā)揮了關鍵作用。

 

它不僅有利于模型增強 STEM 的基礎知識,還能幫助研究人員評估模型對于基礎 STEM 技能掌握的程度,并通過細粒度的數(shù)據(jù)分析有針對性地改進模型。

 

王晨光表示,他和團隊期待該數(shù)據(jù)集可以進一步推動當前多模態(tài)大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實場景下 STEM 問題的目標更進一步。

 

并且,也希望發(fā)布的測試集可以作為評測人工智能基礎模型能力的標準評測之一,得到社區(qū)的廣泛使用。

 

“更重要的是,我們提供的與大規(guī)模人類(主要是小學生)真實水平的比較,可以作為未來模型開發(fā)的目標和參考,以加快通用人工智能目標實現(xiàn)的進程。”他說。

 

目前,基于該數(shù)據(jù)集,該課題組已經(jīng)成功評測了神經(jīng)網(wǎng)絡模型在基礎教育中的理工科能力。

 

接下來,他們一方面計劃繼續(xù)收集數(shù)據(jù),并嘗試推出諸如人文學科、社會學科等領域的數(shù)據(jù)集,以更好地評測大語言模型在其他關鍵學科上的能力。

 

在這方面值得關注的是,該團隊最近已經(jīng)提出了一個新的社會學科數(shù)據(jù)集 Social,包含較大規(guī)模的文本評估數(shù)據(jù),可用來評測大語言模型的社會學科基礎能力。

 

進一步地,還設計了一種多智能體交互的方法,能夠增強大語言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

 

相關論文以《衡量大語言模型的社會規(guī)范》(Measuring Social Norms of Large Language Models)為題收錄于計算語言學協(xié)會北美分會 2024 年年會(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據(jù)悉,該會議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開。

 

另一方面,他們也打算通過研究模型在細粒度數(shù)據(jù)集上的表現(xiàn),找出模型能力不足的部分,并研究如何改進。

 

此外,還希望通過結合檢索的 RAG 方法、設計特殊的模型架構和訓練方法,來進一步增強模型的基礎能力。

 

“我們相信,只有先在基礎理工科和文科領域實現(xiàn)突破,扎實打好基礎,人工智能才有被進一步應用的可能性。”王晨光如是說。

每日福利更多>>

從月亮到六便士:沃爾沃全新XC90上市,開啟產(chǎn)品大年的紳士打法 沃爾沃終于"狠"了一把!全新S90硬剛BBA三杰 第30屆沃爾沃高爾夫中國公開賽開賽 奧迪將“價格戰(zhàn)”再升級!跌至12.99萬,配10氣囊,性價比確實高 20萬SUV選領克09,老司機吵翻了!領克09憑什么\"卷\"贏合資? 新 方程豹 5 加高再申報,標配小天幕及無人機艙!自駕游航拍的福音 江淮江南或將現(xiàn)同期少見暖熱 3月初強冷空氣登場 榮耀Magic 7 Pro的AI技術修復曼聯(lián)球隊經(jīng)典老照片 買車需謹慎!質量最好十大國產(chǎn)品牌:奇瑞遺憾丟冠,領克長安入圍 專科300-400分,這4所專科院校性價比最高,就業(yè)情況不輸本科院校 幼兒園“花式”開學傳遞滿滿的愛 廣汽豐田開年王炸!威蘭達直降4.4萬+終身質保,現(xiàn)在抄底有多賺? iOS 18.3正式版,近期表現(xiàn)最差的版本,不要升級。 三星電機發(fā)布全球首款用于激光雷達的超小型高容量MLCC 邁克爾·戴爾:從宿舍到科技巨頭的商業(yè)傳奇 華為、聯(lián)想搶先接入DeepSeek!AI手機終于要爆發(fā)了? 國產(chǎn)SUV的那些事兒:北汽昌河Q7,它到底咋了?銷量為零的真相! 預算18萬元,選小鵬P7+還是領克Z10,一文了解透 理想汽車:3個核心的競爭力! 新一輪價格戰(zhàn)“開打”!特斯拉、小鵬等品牌“加碼”,專家:今年市場競爭將兩極分化 ROG日本官方調(diào)侃主板插顯卡上,旗艦顯卡投影面積接近ITX主板 業(yè)主買下126㎡“老破舊”的二手房,改造完工后,原業(yè)主:我不賣 深圳樓市迎來“開門紅”;全國人均存款首超10萬;英歌舞這次又“火”出國門!| 灣區(qū)福財訊 性能黨必看!4款銷量‘最佳’的超強性能手機大盤點 2024直屏旗艦:魅族21、三星S24 、紅魔10 誰才是你的最愛? 魅族 22 仍在路上,星際魅族高管回應新機計劃有序推進中 雷軍“進廠上班”!小米新車將至,“正討論進一步提產(chǎn)”! 2024年全球智能手機市場回暖,華為增長37%最為迅猛 華為、蘋果等折疊新品將陸續(xù)面世,折疊機市場有望高增 OPPO Find N5邀請函來了,999純金打造,開工沾喜氣
主站蜘蛛池模板: 国产激情视频在线 | 亚洲三区在线观看 | 日本爱爱 | 免费观看黄色一级片 | 亚洲午夜av久久乱码 | 亚洲一区不卡在线 | 精品国产91| 正在播放国产精品 | 久久久亚洲一区 | 久热9| 91久久婷婷| 久热精品在线 | 亚洲一区国产精品 | 国产美女久久 | 第四色播日韩第一页 | 国产欧美综合在线 | 国产精品久久久久久久久免费相片 | 日韩精品一区二区三区中文在线 | 亚洲欧美日韩在线不卡 | 国产电影精品久久 | 色狠狠桃花综合 | 欧美精品一区二区免费视频 | 免费一级片| 欧美日韩精选 | 国产91精品久久久久久久网曝门 | 午夜精品久久久久久不卡欧美一级 | 久久国产一区二区 | 久久久久成人精品免费播放动漫 | 日本啊v在线| 国产精品久久午夜夜伦鲁鲁 | 成年女人免费v片 | 亚洲嫩草| 国产精品视频一二三区 | 亚洲精品久久久久久宅男 | 国产亚洲黄色片 | 国产精品无码专区在线观看 | 亚洲精品久久久久国产 | 9久9久| 亚洲欧洲精品一区 | 福利视频一二区 | 中文字幕在线一区 |