星环科技创始人孙元浩:大模型在特定领域只是本科生,有3个限制

澎湃新闻记者 邵文
2023-05-27 21:24
来源:澎湃新闻

·“大模型虽然在理解人类自然语言、归纳生成文本图像上有惊人的表现,但它无法理解行业术语,也不能执行行业的特定任务,更无法针对行业做分析、推理和决策。”

·“向量数据库就是大语言模型的海马体(存放记忆)。它的基本功能是把非结构化的数据转成高维向量,然后提供进一步的搜索。”

星环科技创始人、CEO孙元浩。

“当我们用大模型在行业中落地的时候,很快就发现了一个挑战——大模型虽然在理解人类自然语言、归纳生成文本图像上有惊人的表现,但它无法理解行业术语,也不能执行行业的特定任务,更无法针对行业做分析、推理和决策。”5月26日,星环科技(688031.SH)创始人、CEO孙元浩在上海举行的向星力·未来数据技术峰会(FDTC)上谈到,“在特定领域中,大模型还不能像一个专家一样,它目前只相当于一个本科生或本科低年级的水平,只能作为一个实习生,专业知识库以及行业深度知识的缺乏,让它没办法解决特定行业的业务问题。”

为何如此?孙元浩认为其原因是,不管是通用模型还是微调后的行业大模型,目前都面临3个限制:

第一,训练需要时间,而且时间比较长,可能会有半年或一年。但在训练后,资讯、实时新闻、市场行情等快速变化的信息无法内置到模型中,需要一个外部的机制和存储去存放实时信息。

第二,不管是通用还是行业大模型,输入都有限制,这个限制取决于它的算力和工程化难度。所以一般来说,大模型的输入都有token(字符)的设置,GPT-3的限制是4096个token(标识符),相当于大概1024个汉字;GPT-4是大概24000多个汉字,32000多个token。也就意味着,如果要把一个上市公司的年报全部放进去,可能就超过这个限制,不能进行分析。所以,需要一个外挂存储来存放这些输入的信息。

第三,因为大模型有时精准度不够,出现“幻觉”,所以需要一个知识库来校正结果,需要一个机制来补充大模型,让它能够给出准确的答案和更实时的信息。

向量数据库就是大语言模型的海马体

“向量数据库(vector databases)承担了中间存储的角色。”孙元浩认为,向量数据库就是大语言模型的海马体(存放记忆)。它的基本功能是把非结构化的数据转成高维向量,然后提供进一步的搜索。

伴随着AI大模型的应用需求提升,向量数据库也成为最近的投资热点。在今年3月的英伟达GTC大会上,黄仁勋首次提及向量数据库,并强调对于构建专有大型语言模型的组织而言,向量数据库至关重要。

据东北证券研报介绍,向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化,它的一个很重要的功能是拓展大模型的时间边界和空间边界。扩展时间边界指,向量数据库能够使大模型拥有“长期记忆”。空间边界指,向量数据库能够协助解决目前企业最担忧的大模型泄露隐私问题。

“大语言模型兴起之后,以其为基础呈现了成千上万种应用,那么就需要一个高可扩展的向量数据库来存放更多信息,同时要能够提供高速检索。因为大语言模型本身受限于算力,它的计算逻辑是一直预测下一个单词,所以算力需求比较大,速度会变慢,要提供毫秒级的响应,才能跟得上响应速度。”孙元浩说。

向量数据库的工作原理可以理解为:第一,把最新的信息、经常变化的信息(如产品信息、市场行情信息、供应链信息)、以及个人相关信息(如分析习惯,如对一只股票的分析步骤、看哪些基本面等)几类信息放进向量数据库;第二,放数据的过程中,通过嵌入(embedding,将一个内容实体映射为低维向量,从而可以获得内容之间的相似度)把它变成一个高维向量(向量为几百维到几千维,现在通常是1536维)。

最后,当提问或与大模型对话时,先把这个问题转成高维向量,进行语义搜索,找到相关的信息,然后再把它拼接成提示词发给大语言模型,最后语言模型生成答案。

让大模型变成行业专家

利用向量数据库和图数据库(可以高效地存储和查询节点之间的关系和属性,应用在社交网络、知识图谱等场景),即可构建特定领域大模型的应用。

孙元浩在现场演示,“这个是我们目前用的70亿参数的开源大模型,我们问它中粮集团今年的玉米收储价是多少?它不知道。我们再问它,新希望生产猪饲料的主要合作上下游企业有哪些?它也只是泛泛地回答,没有行业知识。我们用农业知识图谱等补充以后,它可以立刻告诉你最新的收储价是3元人民币,以及这个价格的影响。另外,它也直接回答了猪饲料主要的供应商是正大集团。”

通过这样一个工具,就可以解决大模型的几个大问题:第一,把实时的知识、变化的知识放到大模型中。第二,校正结果的准确性,极大提升精度,即使不经过微调,也可以利用工具去构建这样的知识图谱,增强大模型的能力。

在未来数据技术峰会上,星环科技也推出了这一工具。据孙元浩介绍,这一工具的前端可以组织成智能客服的显示,也可以是API(应用程序编程接口)的显示。中间层提供知识图谱的构建工具,提供样本仓库、向量数据库和图数据库。末端即金融行业大模型“无涯”,以及可作为数据查询和分析的智能助手的“求索”大模型。

在现场演示中,“无涯”可以“回答”金融量化领域的各类问题,例如政策和研报分析、新闻解读、舆情分析等,能够对个股、债券、基金、商品等各类市场事件进行复盘和推演。

“求索”大模型则作为数据查询和分析的智能助手,为数据工程师、数据科学及业务人员提供服务,希望让非专业用户在不需要学习和掌握数据库编程语言的前提下,就可以通过自然语言按需查询数据。

星环科技成立于2013年,2022年10月在科创板挂牌上市,大数据平台和分布式数据库是其核心产品。

“未来在每一个领域,如金融、政府、能源、交通等,我认为都需要诞生很多领域或行业的大模型,它们具有专家的能力,能够在上面构造复杂的应用。”孙元浩说。

    责任编辑:郑洁
    校对:刘威