微软论文一张截图，曝出GPT-3.5仅有200亿参数？AI圈巨震，网友大呼太离谱！

14:06

导语：

微软新论文揭示，GPT-3.5的参数量仅为20B，远低于此前宣布的175B。网友质疑：ChatGPT的能力是否与其规模相符？GPT-3.5参数量仅200亿？微软论文在大模型领域引发轰动，今日全行业热议焦点。

微软最新研究论文发表于arXiv，提出了一款参数量为75M的小型扩散模型——CodeFusion。该模型在顶级准确性指标上，与最大规模的350M至175B参数模型性能相当。

关键发现：

微软论文揭示：GPT-3.5的参数量被标注为20B，较先前猜测的1750亿参数减少了近十倍。
网友反应：此消息迅速在知乎登顶热搜，引发广泛关注，已有超68万人参与讨论。
参数争议：网友推测，可能是作者输入错误，如120B或200B。Mistral-7B等小型模型能与ChatGPT竞争，侧面验证GPT-3.5的规模可能较小。
网友感叹：Falcon-180B和Llama2-70B无法超越这款20B参数的模型，引发热议。
模型解释：GPT-3.5-turbo可能是GPT-3.5的优化版本，此次参数“泄露”间接证实了GPT-3.5性能的转变。

微软发布CodeFusion：

微软论文旨在介绍一个用于代码生成的创新扩散模型——CodeFusion。该模型针对Bash、Python及Microsoft Excel条件格式规则的自然语言生成代码任务进行评估。CodeFusion在顶级精度方面与大型LLM模型相当，展现出卓越的性能与参数效率。

模型架构：

评估结果：

性能比较：在顶级精度设置下，CodeFusion与自回归模型性能接近，尤其在Python任务中略胜一筹。在较低精度设置下，CodeFusion全面超越其他基线模型。
多样性评估：CodeFusion生成结果多样性高于自回归模型，显示更强的创新能力。
消融实验：通过观察模型在不同时间步长的表现，展示CodeFusion的逐步进步与优化。

结论：

关于GPT-3.5的准确参数量、GPT-4与GPT-3.5的技术关联以及模型集成方式等谜团，还需待其正式开源才能揭晓答案。此论文的发布不仅展示了CodeFusion在代码生成领域的潜力，也为理解大模型规模与性能的关系提供了新的视角。

参考文献：