大语言和多模态模型进展

大语言和多模态模型，有时被称为基础模型，是当前一种新兴且日益流行的人工智能模型类型，它在大量数据上进行训练并适用于各种下游应用程序。ChatGPT、DALL-E 2和Make A-Video等大语言和多模态模型已经展示了令人印象深刻的功能，并开始在现实世界中广泛部署。

隶属国家

今年，AI指数报告对负责发布新的大语言和多模态模型的作者的国家隶属关系进行了分析。这些研究人员中的大多数来自美国机构（54.02%）；其次是英国（21.88%）和中国（8.04%）。2022年，来自加拿大、德国和印度的研究人员首次为大语言和多模态模型的开发做出了贡献。

AI指数报告还列出了自GPT-2以来发布的大语言和多模态模型发布的时间线视图，以及生成这些模型的研究人员的国家背景。2022年发布的一些著名的美国大语言和多模态模型包括OpenAI的DALL-E 2和Google的PaLM (540B)。2022年发布的唯一中国大语言和多模态模型是GLM-130B，这是由清华大学研究人员创建的令人印象深刻的双语（英语和中文）模型。BLOOM也于2022年底推出，由于它是1,000多名国际研究人员合作的结果，因此隶属国家被列为不确定。

参数数量

随着时间的推移，新发布的大语言和多模态模型的参数数量大幅增加。例如，2019年发布的第一个大型语言和多模态模型GPT-2只有15亿个参数。谷歌于2022年推出的PaLM拥有5400亿，是GPT-2的近360倍。大语言和多模态模型中参数的中位数随着时间的推移呈指数增长。

训练计算

大语言和多模态模型的训练计算量也稳步增长。Minerva (540B)是Google于2022年6月发布的一种大型语言和多模态模型，在定量推理问题上用于训练Minerva (540B)的计算量令人印象深刻，大约是OpenAI于2022年6月发布的GPT-3所用计算量的九倍，约为GPT-2（2019年2月发布）所用计算量的大1839倍。

训练费用

尽管人工智能公司很少公开谈论训练成本，但人们普遍猜测这些模型的训练成本高达数百万美元，并且随着规模的扩大，成本将变得越来越高。

基于模型作者披露的硬件和训练时间，AI指数研究团队对各种大语言和多模态模型的训练成本进行了估计。在没有透露训练时间的情况下，根据硬件速度、训练计算和硬件利用率进行计算。考虑到估计值可能存在的变异性，将每个估计值标记为中、高或低：中值被认为是中等水平估计值，高值被认为是高估值，低值被认为是低估值。在某些情况下，没有足够的数据来估计特定大型语言和多模态模型的训练成本，因此在分析中省略了这些模型。

人工智能指数估计证实了流行的说法，即大语言和多模式模型的训练成本越来越高。例如，DeepMind于2022年5月推出的大型语言模型Chinchilla估计花费了210万美元，而BLOOM的训练估计花费了230万美元。

大语言和多模态模型的成本与其规模之间也存在明显的关系，即，具有更多参数且使用大量计算进行训练的大语言和多模态模型往往更昂贵。例如，于2019年发布的第一个大语言模型GPT-2，拥有15亿个参数，其训练成本约5万美元；而谷歌2022年推出的是大语言模型PaLM，拥有5400亿个参数，训练成本高达800万美元。PaLM比GPT-2大约360倍，成本高出160倍。整体来看，大语言和多模式模型变得越来越大、越来越昂贵。

参考文献：

Stanford University. 2023 AI Index Report [R]. https://aiindex.stanford.edu/wp-content/uploads/2023/04/HAI_AI-Index-Report_2023.pdf