滚完参数,大模特公司又盯上“长文”了?

日期:2023-10-17 13:56:29 / 人气:145


化妆刘羽琦
从4000到40万token,大型号以“肉眼可见”的速度越来越长。
长文能力似乎成了又一个象征大型号厂商的新“标配”。
国外,OpenAI经过三次升级,GPT-3.5的上下文输入长度从4000增加到16,000 token,GPT-4从8000增加到32000 token(token:模型输入输出的基本单位);OpenAI最强的竞争对手Anthropic,把上下文长度打到10万token一度;LongLLaMA将上下文的长度扩展到256,000个令牌,甚至更多。
在国内,光锥智能了解到,大模创业公司Moon Dark Side发布的智能助手产品Kimi Chat,可以支持20万汉字的输入,约合40万token按照OpenAI的计算标准;香港华人团队佳佳雅和MIT发布的新技术LongLoRA,可以将7B模型的文本长度扩展到10万个令牌,70B模型扩展到3.2万个令牌。
据光锥智能不完全统计,目前,OpenAI、Anthropic、Meta、月亮的黑暗面等一大批国内外顶尖的大型模型技术公司、机构和团队,都将扩展上下文长度作为更新升级的重点。
这些国内外的大型模型公司或机构无一例外都是资本市场上的热门“炒鸡”。
OpenAI不用说,大模型的顶级明星研究机构,在美国生成式AI领域斩获近120亿美元投资,拿走60%融资;Anthropic最近风头正劲,接连被曝出亚马逊和谷歌投资新闻。前后只差几天,估值有望达到300亿美元,是3月份的5倍;半年前才成立的《月球的黑暗面》巅峰出道。一成立就迅速完成首轮融资,获得红杉、真格、今日资本、monolith等一线VCS的押注。市场估值已经超过3亿美元。然后红杉孵化支持,先后完成两轮总计近20亿元的融资。
大模公司花大力气攻克长文技术,上下文长度扩充100倍意味着什么?
表面上看,能输入的文字长度越来越长,阅读能力越来越强。
如果把抽象的令牌值量化,GPT-3.5的4000令牌最多只能输入3000个英文单词或2000个汉字,微信官方账号连一篇文章都很难看完。32,000 token的GPT-4已经达到看短篇小说的水平;10万token的克劳德可以输入7.5万字左右,只需22秒就能读完《了不起的盖茨比》。40万token的Kimi Chat支持20万汉字的输入和阅读长篇书籍。
另一方面,长文科技也在推动大模型更深层次的产业落地。在金融、司法、科研等高难度领域,长文档总结、阅读理解、答题能力是其基础,也是需要智能化升级的训练场。
参考上一轮大模型厂商的“体积”参数,大模型的参数越大越好。大家都在通过尽可能扩大参数来寻找大模型性能最优的“临界点”。同样,作为共同决定模型效果的另一个指标——文本长度,模型效果越长,模型效果越好。
有研究证明,能够支持更长上下文输入的大模型和更好的模型效果之间并不存在直接的等号。模型能处理的上下文长度不是真正的重点,模型对上下文内容的使用更重要。
然而,目前国内外对文本长度的探索还远没有达到“临界点”的状态。国内外大型模特公司还在马不停蹄的突破,40万token可能只是个开始。
为什么要“滚”长文?
《月之暗面》的创始人杨告诉光锥智能,在技术研发过程中,他的团队发现,正是因为大模型的输入长度有限,很多大模型应用才得以落地,这也是目前很多大模型公司如《月之暗面》和OpenAI都在专注于长文技术的原因。
比如在虚拟角色场景中,由于缺乏长文本能力,虚拟角色会忘记重要信息;基于大型模型开发脚本杀游戏时,如果输入提示长度不够,只能减少规则和设置,从而无法达到预期的游戏效果;在法律、银行等高精尖专业领域,深度内容分析和生成往往受挫。
在未来Agent和AI原生应用的道路上,长文依然扮演着重要的角色。智能体任务需要依靠历史信息进行新的规划和决策,AI原生应用需要依靠上下文来维持连贯和个性化的用户体验。
杨认为,对海量数据进行无损压缩可以实现高度的智能化,无论是文本、语音还是视频。“无损压缩或者大规模模型研究的进展已经极度依赖于‘参数为王’的模式,其中压缩比与参数数量直接相关。但我们认为,大模型的无损压缩比或上限是由单步能力和执行的步数决定的。其中单步能力与参数数量正相关,执行步数就是上下文长度。”
如果我们形象地理解这句话,“无损压缩”就像一个裁缝,他需要把一块完整的布裁剪成一件合适的衣服。一开始裁缝的想法是准备各种尺寸的裁剪模板(参数)。模板越多,裁剪的衣服就越合身。但现在的新想法是,即使模板不多,只要反复裁剪、剪裁,衣服也能完美合身。
同时,事实证明,即使是拥有数千亿参数的大模型,也无法完全避免错觉和扯淡的问题。与短文本相比,长文本可以通过提供更多的上下文信息和细节信息来帮助模型判断语义,进一步减少歧义,基于提供的事实进行归纳推理更加准确。
可见,长文技术不仅可以解决大模型早期被诟病的一些问题,还可以增强一些功能。同时也是进一步推动产业和应用的关键技术,这也从侧面证明了通用大模型的发展进入了一个新的阶段,从LLM到Long LLM时代。
通过新发布的《月球黑暗面》Kimi Chat,我们或许可以一窥长LLM阶段大模型的升级功能。
首先是抽取、总结和分析超长文本关键信息的基本功能。如果进入微信官方账号的链接,可以快速分析文章主旨;新发布的财报可以快速提取关键信息,并以表格、思维导图等简洁的形式呈现出来;进入全书和专业法律条文后,用户可以提问获取有效信息。
在代码方面,文本可以直接转换成代码。只要把纸扔给对话机器人,就可以根据纸来重现代码生成过程,并且可以在此基础上进行修改,相比当初ChatGPT大会展示草稿生成网站代码,这是一大进步。
在长对话场景中,对话机器人还可以实现角色扮演。通过输入公众人物语料库,设定基调和人物,可以实现与乔布斯和马斯克的一对一对话。国外大模型公司Character AI开发过类似的AI配套应用,移动端的DAU远高于ChatGPT,达到361万。在月球黑暗面的演示中,你只需要一个网站,就可以在Kimi Chat中与你喜欢的原神角色聊天。
以上例子一起说明ChatGPT等对话机器人正在走向专业化、个性化、深度化,这可能是撬动行业和超级app落地的又一个起点。
杨向光锥智能透露,与OpenAI只提供ChatGPT的一个产品和最先进的多模态基础能力不同,月之暗面瞄准的是下一个C端超级APP:以长文技术为突破口,在其基础通用模型的基础上拆分出N个应用。
“国内大机型市场格局将分为toB和toC两大不同阵营。toC阵营中,会出现超级app。这些超级应用都是基于自主研发的模型。”杨判断道。
但现阶段市场上的长文对话场景还有很大的优化空间。比如有的不支持联网,只有官方更新数据库才能获得最新信息;不能在对话框生成的时候暂停和修改,只能等待对话框结束;即使有后台资料和上传文档的支持,还是偶尔会出现无厘头和捏造的情况。
长文的“不可能三位一体”困境
在商业领域,有一套典型的价格、质量、规模的“不可能三位一体”,相互制约,不可兼得。
在长文本方面,也存在文本长度、注意力、计算能力相近的“不可能三位一体”。
(图:文字长度、注意力、计算力“不可能三位一体”)
这说明,文本越长,越难聚集充分的注意力,完全消化;在注意力的限制下,短文不能完全解读复杂的信息;处理长文本需要大量的计算能力并增加成本。
追根溯源,从根本上说,这是因为大部分模型都是基于变压器结构的。这个结构包含了一个最重要的组成部分,那就是自我注意机制。在这种机制下,对话机器人可以任意分析信息之间的关系,而不考虑用户输入信息顺序的限制。
(图:变压器结构)
然而,以此为代价,自我注意机制的计算量会随着上下文长度的增加而呈平方级增加。例如,当上下文增加32倍时,计算量实际上会增加1000倍。
有发表的论文给出证据:过长的语境会显著降低相关信息的比重,加重注意力分散似乎是必然的命运。
这就构成了“不可能三位一体”的第一组矛盾——文字的长度和注意力,也从根本上解释了为什么大模型的长文技术难以突破。
从“体积”大模型的参数到现在,计算能力一直是稀缺资源。OpenAI的创始人Altman曾经说过,ChatGPT-4 32K的服务不可能马上全面开放给所有用户,最大的限制就是GPU的短缺。
对此,杨也表示:“GPU是重要的基础,但这不仅仅是GPU的问题。这是不同因素的综合,一方面是GPU,另一方面是能量转化为智能的效率。效率的进一步拆解可能包括算法、工程、模式、上下文等方面的优化。”
更重要的是,在大型模型的实际部署中,企业根本无法提供太多的计算能力支持,这迫使厂商无论是扩展模型参数还是文本长度,都要紧盯计算能力。但目前要突破更长的文本技术,就得消耗更多的计算能力,于是就形成了文本长度和计算能力之间的第二组矛盾。
腾讯NLP工程师于洋(化名)表示:“目前,大型模型的长文本建模还没有统一的解决方案。麻烦的原因是Transformer本身的结构,一个全新的架构已经在路上了。”
目前大部分软硬件设计都是围绕变压器架构展开的,短时间内很难完全颠覆新架构,但围绕变压器架构已经产生了几个优化方案。
于洋对光锥智能说,“目前主要有三种不同的解决方案,即借助模型的外部工具处理长文本的通用方法,优化自我注意机制的计算,优化模型。”
第一种解决方案的核心思想是“插入”大模型。主要方法是把长文分成几篇短文。该模型在处理长文本时,会在数据库中搜索短文本,得到由多个短文本组成的长文本。一次只加载需要的短文本片段,避免了模型无法一次读取整个长文本的问题。
第二种方案是现在应用最广泛的方法,主要核心是重建自我注意计算方法。比如LongLoRA技术的核心就是将长文本分成不同的组,在每个组内进行计算,而不需要计算每个单词之间的关系,从而减少计算量,提高速度。
前两个模型也被杨称为“蜜蜂模型”,即通过生成检索增强或下采样上下文并保留对部分输入的注意机制来实现长文本处理的效果。
按照杨的说法,还有一种方法可以优化自我注意机制的计算,这种方法也被称为“金鱼”模型。即通过滑动车窗等方式主动抛弃上述。,从而专注于对用户最新输入信息的回答。这样做的好处是显而易见的,但是无法跨文档和对话进行比较和总结分析。
第三个解决方案是专注于优化模型。例如,LongLLaMA以OpenLLaMA-3B和OpenLLaMA-7B型号为起点,并在此基础上进行微调,从而产生了LONGLLAMAs的新型号。该模型可以容易地外推至更长的序列,例如在8K令牌上训练的模型,其可以容易地外推至256K的窗口大小。
还有一种常用的优化模型的方法,就是通过减少参数个数(例如减少到几百亿个参数)来提高上下文长度,杨称之为“蝌蚪”模型。这种方法会降低模型本身的能力。虽然它可以支持更长的上下文,但当任务变得更加困难时,问题就会出现。
长文的“不可能三位一体困境”或许暂时无法解决,但也明确了大型模型厂商在长文上的探索路径:在文字长度、注意力和计算能力之间找到最佳平衡点,既能处理足够的信息,又能兼顾注意力和计算能力的成本限制。"

作者:高德娱乐平台官网




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT 高德注册登录官网 版权所有