腾讯混元大模型批量上新：10秒生成AI图像，超过180个腾讯业务接入

腾讯混元大模型批量上新：10秒生成AI图像，超过180个腾讯业务接入 | 最前线

导览

在揭开大模型“混元”的神秘面纱两个月后，于10月26日，腾讯混元迎来了其首次大规模更新，并全面开放给公众体验。此更新意味着用户现在能够通过混元进行绘画创作，体验其生成图像的准确性与美感。

混元搭载的“灵感”模块，通过用户的指令，已成功生成了一系列既合理又逼真的图像作品。这不仅是文生图（文本转图像）领域的关键技术突破，更是检验通用大模型能力的重要标准，涉及到模型算法、训练平台及算力资源的高度整合。对用户而言，它提供了一个与广泛用户群体互动的便捷入口。

智能技术的展现——混元通过简单的指令，实现图像生成，平均耗时约10秒，生成的图像风格多样，细节丰富，与早期版本相比有了显著提升。

在面对复杂指令时，混元同样表现出色。以弹奏古筝为例，其生成的手部细节栩栩如生，避免了常见的多指或扭曲问题，展现了模型在特定情境下的精准处理能力。

文生图能力的进阶——“对”与“美”的双重追求

在过去两个月的研发中，混元致力于实现AI图像生成的双重目标：不仅追求图像的美感，更注重其准确性和相关性。混元在理解用户指令方面取得了进步，通过集成中英文双语模型，提高了对复杂指令的理解能力。例如，输入“轻舟已过万重山，水墨画风格”，混元能够准确生成相应风格的图像。

算法创新与细节提升

混元在训练过程中采用的算法创新，使得在人像生成的合理性方面表现优异。通过将人物的肢体、手部数据与人体骨架信息融入训练过程，并采用多形式控制手指生成，有效降低了畸形率。同时，画面细节的提升得益于多模型融合策略，包括对人物衣物褶皱、色彩层次的优化。

在技术细节上，混元摒弃了传统基于CNN等技术架构的常规扩散模型，转而结合扩散模型与Transformer架构，以增强细节刻画能力并提高空间定位精度。这使得在人像优化、场景模型如草木、波纹等方面的表现分别提升了30%和25%。

接入腾讯逾百业务，广告效益显著

腾讯混元不仅提供了千亿参数的主模型，还发布了7B、13B等规模较小的模型，以满足不同垂直业务的需求。通过与腾讯内部超过180个业务的深度整合，尤其是对广告业务的优化，混元在提高广告素材、创意生成及广告链路推荐等方面展现出明显优势。

在广告场景中，混元的文生图功能在人像真实感与场景真实感上表现出色，相较于其他标杆模型如Midjourney，其在广告业务上的提升尤为显著。通过持续迭代优化，混元在广告场景下的“好案例率”高出10个百分点左右，且广告主对其采纳率提高了48%。

技术实力的多维度拓展

混元在代码处理方面亦有显著进步，其代码生成能力提升超过20%，在实际测试中甚至超越了ChatGPT和其他业界头部开源代码模型。用户只需输入简短指令，如“帮我用前端语言实现一个贪吃蛇游戏”，混元就能生成可运行的代码，迅速完成游戏开发。

此外，混元支持Python、C++、Java、JavaScript等多种编程语言的指令生成，为用户提供详细的代码库选择、安装命令和绘制步骤指导。在腾讯内部，多个开发平台已集成混元大模型，工程师们得以利用其进行代码生成、补全、漏洞检测与修复、数据处理及数据库查询等任务。

总结

腾讯混元作为一款集先进算法与技术创新于一体的大型语言模型，通过大规模更新与开放，不仅为用户带来了丰富的绘画体验，更在文生图、代码生成等领域展现出卓越性能，助力腾讯内部众多业务实现效率提升与创新突破。随着其在广告、软件研发等场景的应用不断深化，混元正逐步成为推动数字化转型与智能化升级的关键工具。

责任编辑：：储楚

声明：本文系图灵汇原创稿件，版权属图灵汇所有，未经授权不得转载，已经协议授权的媒体下载使用时须注明"稿件来源：图灵汇"，违者将依法追究责任。

2023-11-01

《The Finals》使用通过 AI 文本转语音技术生成音频