Meta發(fā)布全新大型語言模型LLaMA|比OpenAI的GPT3還要好[com]?
() 2月27日消息:作為Meta對開放科學(xué)承諾的一部分,Meta公司日前公開了一個先進(jìn)的大型語言模型,叫做LLaMA(大型語言模型Meta AI)。這個模型可以讓研究人員在人工智能領(lǐng)域做更多的探索。LLaMA比其他模型更小更強(qiáng)大,所以不需要太多的設(shè)備就能使用它。這樣一來,更多的人就能參與到這個重要而快速發(fā)展的領(lǐng)域中。
Meta首席執(zhí)行官扎克伯格在Instagram上說,LLaMA可以幫助研究人員在很多復(fù)雜的任務(wù)上取得進(jìn)步,比如生成文本、對話、總結(jié)文章、證明數(shù)學(xué)定理或預(yù)測蛋白質(zhì)結(jié)構(gòu)等。
Meta官網(wǎng)上有一篇文章介紹了LLaMA。LLaMA有4種不同大小的模型,分別是70億、130億、330億和650億參數(shù)。其中最小的LLaMA7B也用了超過1萬億個tokens來訓(xùn)練。Meta說,在很多基準(zhǔn)測試中,只有十分之一參數(shù)的LLaMA-13B比OpenAI的GPT3(175B)還要好。GPT3是ChatGPT所用的GPT3.5的前身。LLaMa-65B也可以和業(yè)界最好的Chinchilla-70B和PaLM-540B比拼。
去年5月,Meta曾發(fā)布過一個叫OPT-175B的大型語言模型給研究人員用。去年底還有一個叫Galactica的模型,但后者因為經(jīng)常說出有偏見或不正確的信息,在48小時內(nèi)被迅速下架。
Meta公司說,我們認(rèn)為,負(fù)責(zé)任地使用人工智能和大型語言模型需要全社會–包括學(xué)者、民間組織、政策制定者和行業(yè)–共同努力,并制定清晰的準(zhǔn)則。我們期待看到社區(qū)能從LLaMA中學(xué)到什么–并最終創(chuàng)造什么。