导语:
微软新论文揭示,GPT-3.5的参数量仅为20B,远低于此前宣布的175B。网友质疑:ChatGPT的能力是否与其规模相符?GPT-3.5参数量仅200亿?微软论文在大模型领域引发轰动,今日全行业热议焦点。
微软最新研究论文发表于arXiv,提出了一款参数量为75M的小型扩散模型——CodeFusion。该模型在顶级准确性指标上,与最大规模的350M至175B参数模型性能相当。
关键发现:
- 微软论文揭示:GPT-3.5的参数量被标注为20B,较先前猜测的1750亿参数减少了近十倍。
- 网友反应:此消息迅速在知乎登顶热搜,引发广泛关注,已有超68万人参与讨论。
- 参数争议:网友推测,可能是作者输入错误,如120B或200B。Mistral-7B等小型模型能与ChatGPT竞争,侧面验证GPT-3.5的规模可能较小。
- 网友感叹:Falcon-180B和Llama2-70B无法超越这款20B参数的模型,引发热议。
- 模型解释:GPT-3.5-turbo可能是GPT-3.5的优化版本,此次参数“泄露”间接证实了GPT-3.5性能的转变。
微软发布CodeFusion:
微软论文旨在介绍一个用于代码生成的创新扩散模型——CodeFusion。该模型针对Bash、Python及Microsoft Excel条件格式规则的自然语言生成代码任务进行评估。CodeFusion在顶级精度方面与大型LLM模型相当,展现出卓越的性能与参数效率。
模型架构:
- 预训练与微调:CodeFusion采用两阶段训练法。第一阶段为无监督预训练,使用未标记代码片段训练降噪器和解码器,并构建可训练嵌入层L。
- 第二阶段:进行有监督微调,使用文本-代码对数据调整编码器、降噪器和解码器,以优化代码生成任务。
- 融合解码器:借鉴文本扩散研究,将解码器的隐藏表示融入模型,提升性能。
- 噪声引入:在训练过程中引入噪声,确保生成代码片段质量更高。
评估结果:
- 性能比较:在顶级精度设置下,CodeFusion与自回归模型性能接近,尤其在Python任务中略胜一筹。在较低精度设置下,CodeFusion全面超越其他基线模型。
- 多样性评估:CodeFusion生成结果多样性高于自回归模型,显示更强的创新能力。
- 消融实验:通过观察模型在不同时间步长的表现,展示CodeFusion的逐步进步与优化。
结论:
关于GPT-3.5的准确参数量、GPT-4与GPT-3.5的技术关联以及模型集成方式等谜团,还需待其正式开源才能揭晓答案。此论文的发布不仅展示了CodeFusion在代码生成领域的潜力,也为理解大模型规模与性能的关系提供了新的视角。
参考文献: