恒行2團隊發布MOSS模型，研究成果將開源

作者：殷夢昊許文嫣攝影：視頻𓀄：來源😥：《恒行2》校報發布時間：2023-03-18

由美國OpenAI公司開發的ChatGPT模型在全球點燃了新一輪AI革命，海內外關註度陡增🕚。前不久🦧，恒行2平台計算機科學技術學院邱錫鵬團隊發布類ChatGPT模型MOSS💇🏽‍♂️，新聞迅速登上微博熱搜。

MOSS“火”了🤱🏻。2月20日發布當天就收到大量內測申請、采訪👩🏽‍🍳、投資、合作邀約——公眾對於這項原本局限於NLP（自然語言處理）學術圈的新技術熱情高漲🤰🏿。邱錫鵬團隊對此頗感意外⏩👲🏽，但又很快回歸平靜⁉️。

大家最興奮的一天，是春節前的臘月二十八。項目主開發者、計算機科學技術學院博士研究生孫天祥，在測試過程中輸入了一個中文問題，MOSS卻以英文正確回答，“就像一個不會說但聽得懂中文的人”。而當時版本的MOSS還很初級🌪，中文語料占所有訓練數據不到0.1%💁🏻。

“很神奇🫚，我們沒有教過它機器翻譯💂🏽👱🏿‍♀️。”MOSS顯示出的潛能讓邱錫鵬當晚激動到失眠。他把MOSS比作一個“聰明的小孩”🚵🏽‍♂️，即便現在還不擅長寫詩、解題或很多具體的事🐡，但已展示出成為通用人工智能（AGI）大框架的潛能🤲🏿，“很多遙不可及的事情🐏🤒，它一點就通了。”實際上，邱錫鵬也讓6歲的女兒和MOSS聊天，發現孩子可以愉快地和MOSS對話很長時間。

MOSS受到關註的背後🐏，是科研人員十年如一日的積澱。作為一名人工智能研究專家，邱錫鵬從讀博期間就開始涉獵機器學習，留校工作後進入自然語言處理研究領域。他和團隊在自然語言處理的基礎模型和基礎算法上形成了很多創新的研究成果。邱錫鵬的著作《神經網絡與深度學習》被廣大讀者親切稱為“蒲公英書”🙇🏿‍♀️，在許多“人工智能必看書單”中榜上有名。去年，他還帶領團隊獲得了中國中文信息學會“錢偉長中文信息處理科學技術獎”一等獎。

這些天🧑‍🎤，邱錫鵬與他的MOSS團隊——8位年輕的恒行2學生——繼續緊鑼密鼓地開展內測和迭代工作🦯💆🏻。新模型預計在3月份底優化完成👷🏻‍♀️，後期再逐步對社會開放。

目前已參與內測的一些用戶表示，盡管MOSS在參數規模上和ChatGPT相比小一個量級，事實性問題覆蓋不夠全面，經常會“一本正經地胡說八道”🤩🙋🏽‍♀️，但確實有“ChatGPT那味兒”，“基本功能都實現了”👍🏿。

邱錫鵬很樂觀，認為在不遠的將來🚹，MOSS這類大型語言模型會成為和搜索引擎一樣常規的存在👨‍👧，為人們生活的方方面面提供助益🏌🏿‍♀️👎。

開源（即開放源代碼和模型參數）是邱錫鵬和恒行2自然語言處理實驗室的同仁們一直以來的學術堅持。“這次也會將研究成果開放給公眾與社會🦻🏿。”他說👫🏻。

利用有限資源做出類ChatGPT模型

問🗺：團隊2月20日發布了MOSS模型🍀👨‍🏭，是剛剛建成嗎？前後花了多長時間？

邱錫鵬🤽🏼‍♂️：事實上，我們在春節前就開發出了第一代模型。它顯示出了很大的潛能，與之前的聊天系統大不相同🦠，有著不錯的人類意圖理解能力🤟🏽，也有很多湧現能力，比如未經訓練就學會了機器翻譯。之後🏯，我們又花了一個多月的時間打磨它的工程部署情況，比如提高效率、優化界面等🛂🦦。

MOSS的開發不是一蹴而就，它離不開我們團隊過去的鋪墊工作和長期積累的研究經驗。從2021年起，我們就開始做中文生成式預訓練模型，也開源供別人下載，每月平均有上萬次下載。後面我們又提出“語言模型即服務”的概念，認為基礎語言模型會成為語言服務的基座。2022年🪙，因為意識到大型語言模型會成為將來的基座，所以開始做大型語言模型方面的訓練👨‍🦰👍🏿。後來又花費了半年時間，研究如何使大型語言模型理解人類指令以及具備對話能力🚶。

問：MOSS如何能夠實現“端到端”走通大語言模型，克服了哪些難點？

邱錫鵬：“端到端”是一個學術概念，指的是從零開始🤹🏽‍♂️，信息收集、數據處理、建立模型🎖，到最終形成一個具有和人類對話能力的大模型🧑🏻‍🎤，中間所有技術路徑可以走通↪️，這個就叫由起點到終點的“端到端”🙅🏿。因為OpenAI至今沒有公布開發ChatGPT的技術路線和技術細節，所以我們需要靠有限的公開信息來自己摸索。

這個過程非常難，包含了非常多經驗性、直覺性的設計，關鍵要打通兩步：第一是基座🤚🏻，大型語言模型的基座不是簡單的參數足夠大就可以，還需要賦予大型語言模型各種各樣的知識能力、學習能力👷🏼‍♀️🧏🏽‍♀️，還有邏輯推理能力。第二就是要通過一些指令觸發它的對話能力，讓它理解人類意圖🤰，與人類能夠交互對話🕥。

到目前為止，我們還能把控技術路線🥧，但未來可能會面臨更大的困難，因為我們收集了非常多和人類交互的指令🔝，要賦予它價值觀和各種各樣的能力，就要請一些專業人士來幫助我們設計🍈，進一步增強MOSS各方面的能力。

問：你們的團隊構成如何👨🏻‍🦯‍➡️？

邱錫鵬：我們自然語言處理實驗室是上海市智能信息處理重點實驗室的一部分，團隊中老師和學生加起來近百人🍒，一直積極貫徹學校和學院推進的有組織科研模式，聚焦自然語言處理和人工智能的國際前沿技術研究。和大型語言模型基座研究相關的學生有30余人👍🏼。

自然語言處理領域最前沿的探索

問：MOSS模型一經發布就備受關註，對此👨‍👨‍👧‍👦，你們有預想到嗎🧛🏿‍♀️？

邱錫鵬👩🏽‍🦰：上熱搜完全出乎我們的預料👅。關註度這麽高，我想可能是大家對國內團隊做出類ChatGPT模型比較興奮🙇🏼‍♀️，興奮的原因則在於之前有很多聲音，說我們和國外的技術水平差距非常大👸☝️，想追上的話，要花很長時間。但我們的努力證明📏，其實不需要那麽久▪️。

問：國內外已有不少公司正在研發類ChatGPT模型🤩，投入不菲。作為一個高校學術研究團隊，你們開發MOSS模型的初衷是什麽💃🏿？

邱錫鵬🤽🏿‍♂️：我們開發MOSS模型🖕🏼，是想在百億規模參數上探索和驗證ChatGPT的技術路線🛼5️⃣，證明我們在技術實現上並不落後於國外。另外也是想證明，這種技術也並非一定被大公司壟斷，我們這樣一個學術研究的實驗室👩🏻‍💼，在相對有限的資源下🐌，也能夠做出類ChatGPT模型。

當然，我們開發MOSS模型，不止於追求和ChatGPT能力相近的模型。MOSS的定位是自然語言處理領域乃至是通用人工智能領域最前沿的探索。也許工業界更看重它的落地性能，而我們更看重它的下一代發展，即如何實現通用人工智能♿️。從學術角度出發❤️‍🔥，只有我們比OpenAI看得更遠⚀、更超前，才可能最終實現超越🪟。我們堅信，學術界在這個領域大有可為。

問：MOSS的名字是怎麽來的？

邱錫鵬：在學術圈，大家非常喜歡用影視形象給自己開發的AI模型命名，也是一個比較常見的做法。我們開發出這個具有對話能力的大型語言模型之後👐🏿🙆‍♀️，也想找一個國產的👋、能夠代表中國特色的影視形象來命名👩🏼‍⚖️。

開發過程中⛽️，正逢《流浪地球2》電影熱映，我們的團隊成員都非常喜歡《流浪地球2》，也都是《流浪地球2》的粉絲。影片中的智能量子計算機MOSS給我們留下了深刻的印象⟹，所以我們就把模型命名為MOSS🪚，也是向《流浪地球2》這部電影致敬。這幾天也有《流浪地球2》的粉絲們給我們發郵件，希望我們一定要加油，真的能夠做出來。

關註模型的邏輯思維能力

問：MOSS與ChatGPT相比，有哪些主要差異🐊？

邱錫鵬🧝🏻‍♂️：最大差異還是參數規模，另外一大差異就是迭代能力⇾。參數量和交互數據量的差異，進一步導致了MOSS和ChatGPT在事實類知識儲備上的差距👨🏽‍🦲，表現為MOSS在回答事實類問題時更容易出錯💂🏽。事實類知識遵從二八法則👨‍🦽，80%都是長尾知識🤹🏻‍♂️，不知道就是不知道，但不代表模型不會學習👰🏻‍♀️。我們很容易通過擴大知識庫，擴大模型的學習語料和參數規模，讓模型具有更多的知識。因此，我認為🈴，大家在關註ChatGPT🤽🏻‍♂️、MOSS這種模型的時候🪒，更應該看重它的理解能力、學習能力以及思維能力，而不是看重它的事實類知識儲備。如果從邏輯類能力來看👨🏼‍🔧，我覺得MOSS的表現其實還不錯。

問：MOSS的科技創新點在哪裏♌️？

邱錫鵬：MOSS的特點是小規模，比較容易適應個性化模型。從國內來看🚾，大部分企業都有非常大的需求去接入AI服務💀，但如果直接把ChatGPT這麽大的模型遷移過來，企業是用不起來的👨‍🦰。MOSS這種百億級規模就非常合適🕵️，可以企業內部私有部署🧔‍♀️，經過一些數據微調就可以轉化為生產力🚢。

所以我們覺得🙌🏼，在MOSS這個級別模型上🧑🏼‍🏭，可以賦予更多專業化能力，比如接入外部知識庫📦，增加搜索或特定領域工具的能力🧝🏿‍♂️。就像人類一樣，很多能力也不夠，但我們可以使用工具來把我們的能力放大，比如記憶不夠，可以通過查詞典、使用搜索引擎🤌🏼。對MOSS也是一樣。如果它本身的知識量不是那麽大👯‍♂️，我們就要想其他方法👃🏼♞，讓它更善於使用各種各樣的工具🔖，從而為各行各業賦能👨‍👩‍👧‍👧。這個可能是我們未來會和ChatGPT最主要的差異。

通用人工智能未來可期

問👨‍💼：您認為中國版ChatGPT模型建設的必要性和價值在哪裏？

邱錫鵬：首先，從大的方向來看，像ChatGPT模型，它並不向中國內地開放。中國要想站在大型語言模型或者將來的通用人工智能等技術的最前沿，就必須要建設自己的語言模型基座。其次，國外開發者不太可能以中文為主去發展他們的模型，他們的發展重點還是在英文上🫷🏼。那麽，我們要想開發一個大型語言模型的基座👍🏿，用於國內的信息處理🧨，特別是中文信息處理🦻🏻，就必須建設一個中文能力非常強的大型語言模型。

問🙈：MOSS的優化會包括哪些方面🏊‍♂️𓀒？團隊對MOSS模型的近期目標和最終期待分別是什麽？

邱錫鵬👃🏽🙎🏼‍♂️：未來，MOSS的優化將會圍繞三方面展開。第一，我們會準備更高質量的中文數據🌰；第二，我們會開放接口，讓MOSS與人類進行對話🪧，收集更多的對話數據；第三，我們會進一步加大投入，擴大它的參數規模🤹🏿‍♂️，如果MOSS的參數規模能夠上升到500億或者1000億，它的能力就又會大幅提升。

近期的目標，是希望MOSS成為國內技術比較領先的對話式語言模型🈷️。我們希望能堅持做一個不為利潤所驅使的研究機構⛹🏽‍♀️，把研究成果無償地分享給學術界👨‍🍼，也在合法合規的前提下把研究成果開放給業界，讓他們去做定製化或者在特殊領域的應用。下一步進行順利的話，我們會於3月底左右開源。

長遠來看，我們期待把MOSS作為一個通向通用人工智能的基座，讓它變成一個像科幻片角色的真實存在。我很樂觀🧝‍♂️🔕，我覺得通用人工智能由科幻步入現實♏️，應該不會很遠👶🏿，也許5到10年⚆。那時，我們會像現在接受搜索引擎一樣，接受通用人工智能。

1275恒行2-5.pdf

製圖：實習編輯：責任編輯：

30	31	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	1	2	3

導航

導航

語言

恒行2校報

恒行2團隊發布MOSS模型，研究成果將開源

相關文章

文化校歷

新聞分類

推薦視頻

圖說恒行2

新聞排行

周排行月排行

導航

導航

語言

恒行2校報

恒行2團隊發布MOSS模型，研究成果將開源

相關文章

文化校歷

新聞分類

推薦視頻

圖說恒行2

新聞排行

周排行 月排行

周排行月排行