什么是大模型?
2025-02-08 10:30
北京
欢迎来到科普中国特别推出的寒假精品栏目“给孩子的高新科技课”!
人工智能作为当今最前沿的科技之一,正在以令人惊叹的速度改变着我们的生活。从智能语音助手到无人驾驶汽车,从 AI 绘画到机器学习,它为我们打开了一个充满无限可能的未来。本栏目将以通俗易懂的方式,用视频和文字给孩子讲述人工智能的原理、应用及其对社会的深远影响。
快跟我们一起开启这场 AI 之旅吧!
先来看视频:
以下为文字版本:
(阅读大约需要 1 分钟)
循环神经网络
生活中说的大模型一般指的是大语言模型。大语言模型的含义很好理解,就是用大量的语言文本数据训练出来的,用于理解,生成人类语言的模型。
用来训练大语言模型的数据量,以及大语言模型里的参数量都非常的大。
比如2018年,GPT-1训练的数据集中,就有大约接近10亿个单词。当时的BERT模型用到了33亿个单词训练。而在2022年,用来训练GPT-3.5的数据集超过45TB,而GPT模型内有超过1000亿个参数。
在这样大量的样本和参数下,大模型表现出了比一般模型更好的文本理解和推理能力,能够更好地理解和回答我们所提出的问题。
但因为需要使用大量的数据进行大量的计算,大模型的训练成本是非常高的。一年的训练成本折合人民币可达上千万元。因此,足够经济实力做大模型的公司还是相对比较少的。
目前,有很多公司都宣称在做自己的大模型,但实际上可能算不上真正的大模型。
策划制作
本文为科普中国-创作培育计划作品
出品|中国科协科普部
监制|中国科学技术出版社有限公司、北京中科星河文化传媒有限公司
作者丨北京云御纪文化传播有限公司
审核丨秦曾昌 北京航空航天大学 自动化科学与电气工程学院 副教授
策划丨符思佳
原标题:《什么是大模型?》
特别声明
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问https://renzheng.thepaper.cn。

