导语:
微软新论文揭示,GPT-3.5模型的参数量仅为20B,远低于此前公布的175B。网友对此反应热烈,认为ChatGPT的能力与其参数量“匹配”。GPT-3.5模型的参数量实际仅为200亿?微软在最新论文中公布了一个参数量仅为75M的小规模扩散模型——CodeFusion。此模型在顶级准确率指标上,可媲美最先进模型,展现出强大的性能。
正文:
微软近日发表的论文,聚焦于一个小规模扩散模型CodeFusion的研发。该模型在性能上表现出色,即便是参数量仅为7500万,也能与当前最先进的350M至175B参数量的模型相匹敌。
论文链接:arXiv论文
值得注意的是,论文中提及的GPT-3.5模型参数量仅为20B,这一数值较之前业界普遍猜测的1750亿参数量缩减了近十倍,引发广泛讨论。
网友在维基百科更新GPT-3.5介绍时,直接将参数量标注为20B,这一消息迅速登上知乎热搜,引发热议。部分网友提出,应当回顾之前的模型蒸馏相关文章进行复习,以适应这一新的参数量信息。
目前,该论文的作者团队已在社交媒体上活跃,预计不久将亲自澄清这一情况。
网友们的分析指向两种可能:一是数据输入时的笔误,如原本为120B或200B;二是小模型在特定任务上表现出色,如Mistral-7B,暗示GPT-3.5的实际参数量可能并不如外界预期的大。
许多网友认为20B的参数量可能更为准确,不禁感叹:“这难以置信!”他们指出,即使是Falcon-180B和Llama2-70B这样的大型模型,也无法超越这一20B参数量的模型在某些任务上的表现。
此外,有观点认为GPT-3.5-turbo版本可能是经过精简的GPT-3.5版本,此次参数量的曝光进一步佐证了GPT-3.5-turbo在某些方面不如旧版的表现。
依据OpenAI官方文档,除了已停用的text-davinci和code-davinci模型外,GPT-3.5系列成员均基于GPT-3.5-turbo构建。
微软CodeFusion模型概览:
CodeFusion旨在实现代码生成,通过两个阶段的训练流程提升性能:
CodeFusion借鉴了文本扩散领域的研究成果,将解码器的隐藏表示融入模型设计中,以改进损失函数,生成高质量代码片段。
评估结果:
CodeFusion在多项基准测试中的表现突出:
此外,CodeFusion生成的代码片段在多样性上优于自回归模型,展现了更好的结果质量。在消融实验中,研究者观察了模型随时间迭代生成代码片段的过程,通过归一化字符串编辑距离对结果进行了量化分析。
结论与后续探索:
尽管GPT-3.5的参数量、GPT-4与GPT-3.5之间的技术联系、以及模型是集成多个小专家模型还是单一通才模型、是否通过蒸馏或更大数据集训练等问题尚待解答,微软的最新研究为AI领域带来了新的思考。随着更多细节的披露,我们期待进一步了解GPT系列模型的创新之处及其对AI技术的影响。