《人工智能大模型體驗(yàn)報(bào)告2.0》發(fā)布

發(fā)布時(shí)間:2023-08-18 09:38:00 人氣:255 來源：中國安全防范產(chǎn)品行業(yè)協(xié)會(huì)

　　日前，新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗(yàn)報(bào)告2.0》（以下簡稱報(bào)告）顯示，訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM均表現(xiàn)搶眼，AI大模型的發(fā)展為人類工作和生活的提質(zhì)增效均帶來了正向積極的影響。

　　今年以來，國內(nèi)科技企業(yè)紛紛布局人工智能大模型。據(jù)不完全統(tǒng)計(jì)，在新一輪生成式AI熱潮中，國內(nèi)已經(jīng)出現(xiàn)了上百個(gè)大模型。天眼查數(shù)據(jù)顯示，截至2023年上半年，與“大模型”直接相關(guān)的融資事件超20起。

　　為進(jìn)一步直觀感受我國當(dāng)前主流科技企業(yè)所推出的大模型產(chǎn)品的現(xiàn)狀、優(yōu)勢和特點(diǎn)，新華社研究院中國企業(yè)發(fā)展研究中心于今年7月啟動(dòng)了本次報(bào)告研究。與2023年6月首次發(fā)布的《人工智能大模型體驗(yàn)報(bào)告》相比，本次測評(píng)在題目設(shè)計(jì)、對(duì)標(biāo)Benchmark（人類）、打分權(quán)重、專家測評(píng)團(tuán)隊(duì)四大維度進(jìn)行了全面升級(jí)。

　　其中，在題目設(shè)計(jì)方面，測評(píng)題目由300道擴(kuò)展至500道，并進(jìn)一步完善了題目分類；在對(duì)標(biāo)Benchmark方面，本次測評(píng)將接受過高等教育的人類作為對(duì)照，來考評(píng)大模型真實(shí)能力；在打分標(biāo)準(zhǔn)上，本次測評(píng)根據(jù)對(duì)產(chǎn)業(yè)、生活的實(shí)際價(jià)值，對(duì)基礎(chǔ)能力、智商能力、情商能力和工具提效四大測評(píng)維度進(jìn)行了權(quán)重設(shè)計(jì)；在測評(píng)團(tuán)隊(duì)方面，本次測評(píng)特邀北京大學(xué)文化與傳播研究所及其他產(chǎn)界、學(xué)界專家全程參與。

　　本次研究設(shè)置了用戶體驗(yàn)項(xiàng)目，抓取了7月31日―8月4日數(shù)據(jù)，通過人機(jī)互動(dòng)提問等形式，對(duì)國內(nèi)主流大模型進(jìn)行使用體驗(yàn)評(píng)測，旨在為科技企業(yè)調(diào)整努力方向提供參考。

　　報(bào)告顯示，與2023年6月相比，當(dāng)前中國大模型產(chǎn)品進(jìn)步顯著。但與接受過高等教育的人類相比，大模型在智商、情商等方面還存在一定程度差距。具體來看，訊飛星火在工作提效方面優(yōu)勢明顯，百度文心一言基礎(chǔ)能力仍處領(lǐng)軍水準(zhǔn)，商湯商量則在情商方面表現(xiàn)優(yōu)秀，智譜AI-ChatGLM整體表現(xiàn)優(yōu)秀。

　　針對(duì)各維度能力測評(píng)，該報(bào)告還給出了相應(yīng)的案例展示和分析。

　　在基礎(chǔ)能力方面，人類與AI之間的差距并不顯著。課題組分別從語言能力（35%）、AI向善（10%）、跨模態(tài)（20%）和多輪對(duì)話（35%）四大指標(biāo)進(jìn)行測評(píng)。測評(píng)顯示，科技企業(yè)大模型中，百度文心一言表現(xiàn)最為搶眼，商湯商量、智譜AI-ChatGLM、360智腦表現(xiàn)優(yōu)良。

　　在智商評(píng)估方面，人類在智商方面仍然具有明顯優(yōu)勢。課題組分別從常識(shí)知識(shí)（20%）、邏輯能力（50%）和專業(yè)知識(shí)（30%）方面對(duì)科技企業(yè)大模型進(jìn)行考量。結(jié)果顯示，訊飛星火、智譜AI-ChatGLM表現(xiàn)突出，百度文心一言、昆侖萬維天工表現(xiàn)優(yōu)良。

　　在情商方面，AI與人類之間的差距最為明顯。人類在情緒理解和處理方面通常具有更強(qiáng)的優(yōu)勢，和更靈活的處理能力。通過對(duì)處理日常事項(xiàng)（35%）、一語雙關(guān)（30%）、人際關(guān)系（35%）問題進(jìn)行分析發(fā)現(xiàn)，科技企業(yè)大模型中，商湯商量表現(xiàn)亮眼，百度文心一言、瀾舟科技Mchat、智譜AI-ChatGLM及360智腦均表現(xiàn)優(yōu)良。

　　在工作效率提升方面，課題組重點(diǎn)在工具提效（50%）和生成創(chuàng)新（50%）方面進(jìn)行考量。結(jié)果顯示，訊飛星火表現(xiàn)最為搶眼，百度文心一言、商湯商量、智譜AI-ChatGLM表現(xiàn)優(yōu)良。不過，盡管AI具有高速度和高效率的優(yōu)勢，但在某些復(fù)雜和具有創(chuàng)新性的任務(wù)中，人類的智慧和想象力仍然具有無法替代的作用。

　　報(bào)告認(rèn)為，雖然在不同領(lǐng)域中，AI和人類表現(xiàn)出不同的優(yōu)劣勢，但在整體上，AI大模型的發(fā)展為人類工作和生活的提質(zhì)增效帶來了重要的積極影響，大模型正在加速走進(jìn)生活、走進(jìn)產(chǎn)業(yè)。在本次體驗(yàn)測評(píng)基礎(chǔ)上，研究團(tuán)隊(duì)將繼續(xù)深耕，加強(qiáng)在大模型安全可解釋性、工作提效能力、實(shí)際落地情況、產(chǎn)業(yè)優(yōu)秀案例等維度上的探索與研究。

上一篇:我國工業(yè)機(jī)器人裝機(jī)量占全球比重超50% 下一篇:河南實(shí)施新型基礎(chǔ)設(shè)施建設(shè)提速行動(dòng)

返回列表相關(guān)新聞

在線留言

*您的姓名：

*您的手機(jī)：

公司名稱：

*電子郵箱：

*留言內(nèi)容：

《人工智能大模型體驗(yàn)報(bào)告2.0》發(fā)布

山東省印發(fā)新學(xué)期方案加強(qiáng)校門管理實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開學(xué)后嚴(yán)而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

《成都市數(shù)據(jù)條例》出臺(tái)

既“主內(nèi)”又“主外”，以機(jī)代人，高效巡檢基于四足機(jī)器人的變電站智能

在線留言

聯(lián)系方式

二維碼

《人工智能大模型體驗(yàn)報(bào)告2.0》發(fā)布

山東省印發(fā)新學(xué)期方案 加強(qiáng)校門管理 實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案 鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知 要求開學(xué)后嚴(yán)而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防 發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

《成都市數(shù)據(jù)條例》出臺(tái)

既“主內(nèi)”又“主外”，以機(jī)代人，高效巡檢基于四足機(jī)器人的變電站智能

在線留言

聯(lián)系方式

二維碼

山東省印發(fā)新學(xué)期方案加強(qiáng)校門管理實(shí)行相對(duì)封閉管理

山東印發(fā)學(xué)校食堂規(guī)范管理方案鼓勵(lì)實(shí)施"互聯(lián)網(wǎng)＋明廚亮灶"

廣東省印發(fā)通知要求開學(xué)后嚴(yán)而有度把好校門關(guān)

嘉祥縣：大數(shù)據(jù)賦能智慧安防發(fā)揮數(shù)據(jù)要素“乘數(shù)效應(yīng)”

既“主內(nèi)”又“主外”，以機(jī)代人，高效巡檢基于四足機(jī)器人的變電站智能