把LLM视作操作系统，它就拥有了无限「虚拟」上下文，伯克利新作已揽1.7k star

11:00

探索大语言模型的长上下文应用与突破

近年来，大语言模型（LLM）及基于Transformer架构的技术在对话式AI领域取得了显著进展，推动了消费级和企业级应用的广泛发展。然而，固定长度的上下文窗口限制了LLM在处理长对话和长文档推理方面的效能。即使是最流行的开源LLM，其最大输入长度也仅限于支持数十条消息回复或短文档推理。

面对这一挑战，研究人员已意识到，单纯扩大Transformer的上下文长度会导致计算时间和内存成本急剧上升，因此探索长上下文架构成为一项紧迫的研究议题。尽管如此，现有研究发现，长上下文模型在利用额外上下文方面面临困难。

为解决这一难题，加州大学伯克利分校的研究团队提出了一种创新策略，旨在在保持固定上下文模型的基础上，营造出处理无限上下文的假象。该方法借鉴了传统操作系统的分层内存管理理念，巧妙地在LLM的上下文窗口与外部存储间构建了有效的信息流通机制。

研究团队利用LLM智能体函数调用能力的最新进展，开发出一个名为MemGPT的系统，其设计灵感源自于操作系统的管理逻辑。MemGPT作为中枢，负责协调主上下文（即LLM处理模块内的信息）与外部存储之间的数据流动，实现上下文的高效管理与分配。

MemGPT的核心机制

MemGPT通过分页技术，允许LLM在有限的上下文窗口内处理远超实际内存容量的数据集。它将上下文窗口视为一种受限内存资源，并采用类似于传统操作系统中分层内存结构（Patterson等人，1988年）的设计，允许智能体在单个任务周期内反复修改上下文窗口的内容，以此提升LLM的利用效率。

MemGPT的关键在于其独特的管理机制，它能够检索上下文窗口外的历史信息，类似于操作系统中的页面错误处理。同时，智能体可以迭代地修改单个任务的上下文窗口内容，类比于进程对虚拟内存的访问过程。这一设计使得LLM能够在有限的上下文容量下处理无边界的信息，从而提升其在长对话和长文档处理方面的性能。

实验与结果

研究团队在对话智能体和文档处理两个领域对MemGPT进行了评估。在对话场景中，MemGPT通过一致性评估和对话开场白任务，展示了其在保持对话连贯性和个性化回应方面的优越性能。通过比较MemGPT与固定上下文基线模型（如GPT-3.5和GPT-4），研究发现MemGPT在对话一致性判断准确度和ROUGE-L分数方面表现出显著优势。

在文档分析方面，MemGPT通过基准测试证明了其在扩展有效上下文长度、主动检索文档并迭代分页浏览结果的能力，显著提升了文档QA任务的处理效率。尽管基于嵌入的相似性搜索存在局限性，MemGPT仍然能够有效地检索和整合多来源信息，尤其在执行嵌套键值检索任务时展现出强大的性能。

结论与展望

MemGPT的提出标志着在保持固定上下文模型的前提下，实现长上下文处理能力的重要突破。通过借鉴传统操作系统内存管理的理念，MemGPT不仅解决了计算资源的高效利用问题，还显著提升了大语言模型在处理长对话和长文档推理方面的效能。未来的研究将进一步探索MemGPT的潜力，以及如何将其应用于更广泛的AI场景中，以推动对话式AI技术的持续发展与创新。

利空

利好

首页 - 快讯 - 快讯详情