開源大模型超越GPT-3.5!爆火MoE實測結果出爐,網友:OpenAI越來越沒護城河了

2023-12-12 40 12/12

帶動MoE再次成爲開源社區最火議題

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

但隨着我們繼續提問,Mixtral的回答一不小心暴露了自己可能專門針對LeetCode做過訓練,而且還是中文版LC。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

爲了更加真實地展示Mixtral的代碼能力,我們轉而讓它編寫實用程序——用JS寫一個Web版計算器。

經過幾輪調整之後,雖然按鈕的佈局有些奇怪,但基本的四則運算已經可以完成了。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

此外我們會發現,如果在同一個對話窗口中不斷補充新的要求,Mixtral的表現可能會有所下降,出現代碼格式混亂等問題,開啓新一輪對話後則會恢復正常。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

除了API和在線版本,Mistral AI還提供了模型下載服務,可以用上的磁力鏈接或通過Hugging Face下載之後在本地部署。

在上,已經有不少網友在自己的設備上跑起了Mixtral,還給出了性能數據。

在128GB內存的蘋果M3 Max設備上,使用16位浮點精度運行Mixtral時消耗了87GB顯存,每秒可以跑13個token。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

同時也有網友在M2 Ultra上通過llama.cpp跑出了每秒52token的速度。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

看到這裏,你會給Mistral AI的模型實力打幾分?

不少網友是已經興奮起來了:

“OpenAI沒有護城河”,看起來肯定會成爲現實……

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

要知道,Mistral AI今年5月纔剛剛成立。

短短半年,已是一手20億美元估值,一手驚豔整個AI社區的模型。

更關鍵的是,普林斯頓博士生Tianle Cai分析了Mistral-7B與Mixtral-8x7B模型的權重相關性做了分析,證明了模型的成功複用。

隨後網友發現,Mistral AI創始人也親自證實,MoE模型確實就是把7B基礎模型複製8次,再進一步訓練來的。

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

隨着此類模型的免費商用,整個開源社區、新的創業公司都可以在此基礎之上推動MoE大模型的發展,就像Llama已然帶動的風暴那樣。

作爲吃瓜羣衆,只能說:

开源大模型超越GPT-3.5!爆火MoE实测结果出炉,网友:OpenAI越来越没护城河了

參考鏈接:

[1]https://mistral.ai/news/mixtral-of-experts/

[2]https://mistral.ai/news/la-plateforme/

[3]https://huggingface.co/blog/mixtral#about-the-name