星环科技创始人孙元浩：大模型在特定领域只是本科生，有3个限制

澎湃新闻记者邵文

2023-05-27 21:24

来源：澎湃新闻

·“大模型虽然在理解人类自然语言、归纳生成文本图像上有惊人的表现，但它无法理解行业术语，也不能执行行业的特定任务，更无法针对行业做分析、推理和决策。”

·“向量数据库就是大语言模型的海马体（存放记忆）。它的基本功能是把非结构化的数据转成高维向量，然后提供进一步的搜索。”

星环科技创始人、CEO孙元浩。

“当我们用大模型在行业中落地的时候，很快就发现了一个挑战——大模型虽然在理解人类自然语言、归纳生成文本图像上有惊人的表现，但它无法理解行业术语，也不能执行行业的特定任务，更无法针对行业做分析、推理和决策。”5月26日，星环科技（688031.SH）创始人、CEO孙元浩在上海举行的向星力·未来数据技术峰会（FDTC）上谈到，“在特定领域中，大模型还不能像一个专家一样，它目前只相当于一个本科生或本科低年级的水平，只能作为一个实习生，专业知识库以及行业深度知识的缺乏，让它没办法解决特定行业的业务问题。”

为何如此？孙元浩认为其原因是，不管是通用模型还是微调后的行业大模型，目前都面临3个限制：

第一，训练需要时间，而且时间比较长，可能会有半年或一年。但在训练后，资讯、实时新闻、市场行情等快速变化的信息无法内置到模型中，需要一个外部的机制和存储去存放实时信息。

第二，不管是通用还是行业大模型，输入都有限制，这个限制取决于它的算力和工程化难度。所以一般来说，大模型的输入都有token（字符）的设置，GPT-3的限制是4096个token（标识符），相当于大概1024个汉字；GPT-4是大概24000多个汉字，32000多个token。也就意味着，如果要把一个上市公司的年报全部放进去，可能就超过这个限制，不能进行分析。所以，需要一个外挂存储来存放这些输入的信息。

第三，因为大模型有时精准度不够，出现“幻觉”，所以需要一个知识库来校正结果，需要一个机制来补充大模型，让它能够给出准确的答案和更实时的信息。

向量数据库就是大语言模型的海马体

“向量数据库（vector databases）承担了中间存储的角色。”孙元浩认为，向量数据库就是大语言模型的海马体（存放记忆）。它的基本功能是把非结构化的数据转成高维向量，然后提供进一步的搜索。

伴随着AI大模型的应用需求提升，向量数据库也成为最近的投资热点。在今年3月的英伟达GTC大会上，黄仁勋首次提及向量数据库，并强调对于构建专有大型语言模型的组织而言，向量数据库至关重要。

据东北证券研报介绍，向量数据库是专门用来存储和查询向量的数据库，其存储的向量来自于对文本、语音、图像、视频等的向量化，它的一个很重要的功能是拓展大模型的时间边界和空间边界。扩展时间边界指，向量数据库能够使大模型拥有“长期记忆”。空间边界指，向量数据库能够协助解决目前企业最担忧的大模型泄露隐私问题。

“大语言模型兴起之后，以其为基础呈现了成千上万种应用，那么就需要一个高可扩展的向量数据库来存放更多信息，同时要能够提供高速检索。因为大语言模型本身受限于算力，它的计算逻辑是一直预测下一个单词，所以算力需求比较大，速度会变慢，要提供毫秒级的响应，才能跟得上响应速度。”孙元浩说。

向量数据库的工作原理可以理解为：第一，把最新的信息、经常变化的信息（如产品信息、市场行情信息、供应链信息）、以及个人相关信息（如分析习惯，如对一只股票的分析步骤、看哪些基本面等）几类信息放进向量数据库；第二，放数据的过程中，通过嵌入（embedding，将一个内容实体映射为低维向量，从而可以获得内容之间的相似度）把它变成一个高维向量（向量为几百维到几千维，现在通常是1536维）。

最后，当提问或与大模型对话时，先把这个问题转成高维向量，进行语义搜索，找到相关的信息，然后再把它拼接成提示词发给大语言模型，最后语言模型生成答案。

让大模型变成行业专家

利用向量数据库和图数据库（可以高效地存储和查询节点之间的关系和属性，应用在社交网络、知识图谱等场景），即可构建特定领域大模型的应用。

孙元浩在现场演示，“这个是我们目前用的70亿参数的开源大模型，我们问它中粮集团今年的玉米收储价是多少？它不知道。我们再问它，新希望生产猪饲料的主要合作上下游企业有哪些？它也只是泛泛地回答，没有行业知识。我们用农业知识图谱等补充以后，它可以立刻告诉你最新的收储价是3元人民币，以及这个价格的影响。另外，它也直接回答了猪饲料主要的供应商是正大集团。”

通过这样一个工具，就可以解决大模型的几个大问题：第一，把实时的知识、变化的知识放到大模型中。第二，校正结果的准确性，极大提升精度，即使不经过微调，也可以利用工具去构建这样的知识图谱，增强大模型的能力。

在未来数据技术峰会上，星环科技也推出了这一工具。据孙元浩介绍，这一工具的前端可以组织成智能客服的显示，也可以是API（应用程序编程接口）的显示。中间层提供知识图谱的构建工具，提供样本仓库、向量数据库和图数据库。末端即金融行业大模型“无涯”，以及可作为数据查询和分析的智能助手的“求索”大模型。

在现场演示中，“无涯”可以“回答”金融量化领域的各类问题，例如政策和研报分析、新闻解读、舆情分析等，能够对个股、债券、基金、商品等各类市场事件进行复盘和推演。

“求索”大模型则作为数据查询和分析的智能助手，为数据工程师、数据科学及业务人员提供服务，希望让非专业用户在不需要学习和掌握数据库编程语言的前提下，就可以通过自然语言按需查询数据。

星环科技成立于2013年，2022年10月在科创板挂牌上市，大数据平台和分布式数据库是其核心产品。

“未来在每一个领域，如金融、政府、能源、交通等，我认为都需要诞生很多领域或行业的大模型，它们具有专家的能力，能够在上面构造复杂的应用。”孙元浩说。

责任编辑：郑洁

校对：刘威