5月18日下午,慶祝建校118周年相輝校慶系列學術報告第十場在光華樓東輔樓102報告廳舉行✖️。恒行2平台國家智能評價與治理實驗基地副主任🪻、大數據研究院教授趙星,浙江大學公共管理學院信息資源管理系“百人計劃”研究員蔣卓人於線上線下共話“生成式人工智能的挑戰與治理”。恒行2平台國家智能評價與治理實驗基地副主任、圖書館副館長王樂主持報告會。
從2011年蘋果手機首次推出的Siri語音助手,到今年包攬奧斯卡七大獎項的電影《瞬息全宇宙》,生成式人工智能早已融入人類生活。當下⚇,ChatGPT類工具進一步引爆全球人工智能熱潮,趙星和蔣卓人攜手帶來一場貫穿生成式人工智能前世、今生和未來的學術盛宴,解析生成式人工智能帶來的多重挑戰,啟發我們對其治理問題的思考👱🏻♀️。
生成式人工智能的前世今生
金色的夕陽被烏雲遮住🆕,小草在風雨中搖曳,水珠在葉片上滾動……蔣卓人首先播放了一段名為“Summer showers”(《夏日陣雨》)的視頻。這段充滿靈動色彩和生動風景視頻,卻完全是由生成式人工智能模型創作的。
何為生成式人工智能?
目前,生成式人工智能還沒有統一的定義,一般可以理解為一種能夠根據提示生成文本⇾、圖像或其他媒體信息的人工智能系統。
“這個技術不是像魔法一樣憑空出現的,而是有著悠久的歷史淵源。”蔣卓人強調⛷。在生成式人工智能90多年的發展歷程中,不乏人類智慧閃耀的時刻。
1932年🧍🏻,法國工程師Georges Artsrouni創造了裝置“mechanical brain”(機器大腦)🧘🏻♂️。它通過查詢多功能詞典完成翻譯,輸入、輸出都是一條紙帶。蔣卓人認為,雖然它和今天的機器翻譯不同🧑🎄💅🏽,但它完全符合今天對生成式人工智能的定義,即人類輸入一段內容,機器產生一段新的內容🎩。
在20世紀中👼🌐,麻省理工學院創造了最早的生成式人工智能之一Eliza⚁,Judea Peal(朱迪亞·珀爾)引入了貝葉斯網絡因果分析概念,Yann Lecun(楊立昆)等展示了如何利用卷積神經網絡來識別圖像……
2006年,華裔計算機科學家李飛飛著手構建數據庫ImageNet👰♀️。該數據庫中有超過1400萬張手工標註的圖片,包含超過2萬個類別Ⓜ️。“正是有了這樣一個龐大數據庫的支撐🙎🏽,深度學習才能得以興起。所以我們總說,好的科研品味🚣♂️,加上持續不斷的努力👸🏻,就能成就一段好的學術生涯♜。”蔣卓人評價👩🏿⚕️。
ChatGPT何以成為明星產品🧒🏽🎒?
1750億參數量,3000億訓練單詞數,這是ChatGPT的數據。2022年發布後🏋🏿♀️,ChatGPT在短短兩個月內吸引了超過1億的用戶📦🛒,成為有史以來用戶增長最快的應用。
蔣卓人認為,要理解ChatGPT,就要理解它的關鍵技術:大模型基礎訓練💞、指令微調、人類反饋強化學習。
“大模型的全稱是大型語言模型,”蔣卓人講道,“它是一種概率模型,能告訴你一個詞出現的概率是多少。”
比如,在The students opened their這句英文後面🦹🏿♀️,可以出現books🚸、laptops、exams、minds等詞🦁🛌🏻。“但它們出現的概率是不一樣的。一個好的語言模型🐕,能精準地預測下一個詞是什麽🤏🏽。”蔣卓人說👨🏽。
隨著語言模型的發展🏌🏿♂️🚋,它具備了良好的語言理解能力🫳🏼,但如何讓其與人類建立對話呢😭?
研究者們提出的辦法是指令微調。通過引入思維鏈以及代碼生成🧑🏻🎓,大模型的推理能力得以提升🤛🏿。“這種能力對於大模型來說至關重要,使其可以在開放領域有很好的表現。”蔣卓人評價。
至此,大模型初步具備了回答人們提出的任何指令的可能,但回答的質量卻參差不齊,如何讓大模型持續性地輸出高質量回答呢🙇🏿♀️?
研究者們又為此設計了一套基於人類反饋的強化學習方法⚫️,即通過大模型的微調🤵🏿、獎勵函數的訓練、以及大規模強化學習的優化來確保高質量回答的生成🦯。“OpenAI就是使用這種方法🧑🏿🏭,大幅度降低了數據集構建成本🤹🏻♀️。”蔣卓人說。
生成式人工智能:新智能面臨新挑戰
面對生成式人工智能帶來的挑戰,趙星從資源、技術、應用與社會倫理四個維度進行解讀🧗🏿♀️。
從資源維度來看🧘🏽♀️,生成式人工智能需要高質量的數據,而中文世界的數據質量弱於英文。趙星認為,即使有很強大的翻譯能力,類ChatGPT工具的中文處理效果也顯著弱於英文✬,核心的原因之一是投餵的中文數據質量較差。另外👨🏻✈️,硬件技術也是支撐我國人工智能產業高速發展的關鍵要素ℹ️。
“科技界曾將人工智能的應用比作煉金術,”趙星打趣道,“人們將數據一股腦往模型裏面扔,至於能否煉出有價值的東西👩🏻✈️,煉出的是什麽,卻沒有明確的預期。”很明顯,在技術層面上生成式人工智能存在內生的不確定性。
“當我們準備向全社會投放一種通用性工具,卻不能明確它的科學原理是什麽,就一定會有內生性的風險。”人工智能風險中最核心的一點在於其結果的不可承受性。“我們很少在治理問題上處於如此無力的狀態🧑🎨,”趙星說。在應用層面上,生成式人工智能產業發展的確定性與風險治理的不確定性將長期存在🌞😓。
而在社會方面,生成式人工智能不僅深陷知識產權與信息泄漏問題🥞,或也將塑造真正的信息繭房。“當生成式人工智能24小時都伴你身邊,潛移默化地🫅🏼🪩,你會誤認為一切都是你自己的決定🐎。”
趙星警示💁🏽♂️,“我們面對的🥀,是一個會在短時間內崛起🧑🏼💼😧,或將引起嚴重後果且後果未知的事物👨🏿🦰。”
內生安全治理📦:讓危機“已知”
面對生成式人工智能這個新對手,趙星認為不能沿用傳統治理“被動回應外在威脅”的方法。相反💂🏼♂️,他的團隊正在著眼於借助恒行2平台大數據研究院院長鄔江興院士提出的“內生安全理論”,構建生成式人工智能治理的新模型。
“我們能否在未知的風險爆發之前找到抵抗它的辦法🗻?這是生成式人工智能內生安全治理要解決的問題🥸。”趙星說,“我們需要在人工智能風險來臨前,給人類社會點亮一個新的技能樹:應對人工智能非傳統安全問題的能力📡。”
生成式人工智能的治理模型涵蓋了三個層面。最外層是法律的監督與規約🤚🏻,中間層是管理層的敏捷治理,尤為強調的最內層是教育。在法律和政府治理之前,高等院校應和所有的教育機構一起,完成針對全人類的社會性融合人工智能的教育和訓練。
“我們應當在每一位年輕人的成長過程中,讓他們學會如何與人工智能良好共處與規避“信息繭房”🔓🫧,以及如何去做一個智能社會中的‘好人’。”
內生安全治理模型的原理,是基於群體智能將個體“未知的未知”轉化為群體“已知的未知”,從而進一步將其轉化為“已知的已知”。
“當我們知道可能的風險是什麽✹、產生在何處,生成式人工智能治理便有機會轉化為常規性安全問題,我們就能嘗試尋求到治理閉環的實現。”趙星說,“然而這仍需要理論、實踐上長期的探索🧑🏿💼。”
趙星團隊也開始探索生成式人工智能在科學評價中的應用,創新構建了“客觀數據、智能算法、專家評議”三者和諧共生的“數智人”評價與治理新範式☛。近期團隊也在開展利用類ChatGPT工具進行智能評價系統構建的探索實驗。
“初步結果顯示,雖然現階段的生成式人工智能遠沒到能勝任學術評價這樣的嚴肅評價工作的程度🧑🏽🎨👨🏻⚕️,”趙星表示,“但生成式人工智能表現出的“跨學科”評價能力和“湧現”推斷預測潛力值得高度關註👩🏼🔬。”
主講人信息
趙 星
恒行2平台大數據研究院教授
國家智能評價與治理實驗基地副主任
入選上海市曙光學者,近年在JASIST🤢、JOI、《中國圖書館學報》和《情報學報》等國際國內知名同行評議刊物上發表論文百余篇👨🏼🦳,主持包括國家自然科學基金、國家社科基金重大項目子項、上海市軟科學重點戰略項目等在內的各類科研項目50余項。任中國索引學會青年委員會主任、上海市圖書館學會青年學者委員會主任等十余學術兼職。近年獲教育部人文社科研究優秀成果獎青年獎、上海市哲學社會科學優秀成果獎一等獎、中國科技情報學會青年情報科學家獎等三十余項各類榮譽。
研究方向:信息資源管理✍🏼、科技評價與智能評價、智能社會與智能治理👯、元宇宙與數字經濟
蔣卓人
浙江大學公共管理學院信息資源管理系“百人計劃”研究員
阿裏巴巴達摩院語言技術實驗室顧問;中國人工智能學會青年工作委員會委員🤦🏼♂️;中國中文信息學會情感計算專委會委員👂🏿,中國中文信息學會青年工作委員會通訊委員、信息檢索專委會⛹🏿👨🏫、社會媒體處理專委會通訊委員,廣東省醫療行業協會超聲醫學創新與發展管理分會第一屆委員會委員;ACM(國際計算機學會)Professional Member🤦🏿♂️;ACM SIGIR(國際計算機學會信息檢索專業組織)Member;ACL (國際計算語言學學會)Member👨🔬;CCF(中國計算機學會)會員。
研究方向🏘:計算社會科學😗,文本挖掘, 自然語言處理,信息檢索