在近期科技领域,Stability AI发布了Stable Diffusion 3 Medium,旨在将文本提示转化为AI生成图像。然而,这款新模型因其生成的人体图像异常,遭到了网络用户的广泛嘲讽,甚至被批评为技术退步,与同类模型如Midjourney或DALL-E 3相比显得黯然失色。
网络论坛Reddit上出现了多篇讨论此事件的帖子。一篇题为“这次发布难道是个笑话吗?”的帖子详细指出了Stable Diffusion 3 Medium在渲染人类图像,尤其是手脚部分时存在的显著缺陷。另一篇标题为“Stable Diffusion 3为何在生成躺草地的女性图像时表现不佳?”的帖子也揭示了类似问题。
传统上,AI图像生成器在处理手部图像时一直存在挑战,主要是由于早期训练数据集中的优质实例不足。不过,近期的几个图像合成模型似乎已成功克服了这一难题。因此,对于聚集在Reddit上的图像合成爱好者而言,Stable Diffusion 3的出现标志着一个明显的倒退,尤其是在与去年11月发布的SD XL Turbo相比时。
用户在Reddit上指出,“Stable Diffusion曾与Midjourney竞争,现在却成了笑柄。至少我们的数据集是安全和伦理的!”这反映出AI爱好者将Stable Diffusion 3的人体解剖失败归咎于Stability AI在过滤训练数据中的成人内容(通常被称为“NSFW”内容)的做法。
据Reddit用户分析,严格审查的模型可能在去除成人内容时也误删了对人体解剖内容的呈现。在AI图像合成领域,每当用户提示指向模型训练数据集未能良好代表的概念时,生成的图像往往难以精确呈现。有时,这种失真甚至会达到令人震惊的程度。
回顾2022年发布的Stable Diffusion 2.0也曾面临类似问题。AI研究者们迅速发现,过度过滤包含裸体的成人内容会严重影响模型生成准确人体解剖图像的能力。为解决这一问题,Stability AI通过更新至SD 2.1和SD XL,重新获得了因过度过滤NSFW内容而失去的部分能力。
在模型预训练阶段,有时研究人员使用的NSFW过滤器过于严格,导致不应被过滤的内容也被移除,从而限制了模型对某些情况下人类形象的描绘能力。Reddit用户指出:“只要图像中没有人类,就没有问题。我认为他们改进的NSFW过滤器将任何类人形象都判定为NSFW。”
我们通过Hugging Face平台使用免费的Stable Diffusion 3在线演示进行了测试,结果与他人报告的情况类似。例如,提示“一个男人展示他的手”返回的是一张男人举起两只巨大反手的图像,尽管每只手至少有五个手指。
Stability AI在二月宣布了Stable Diffusion 3,并计划提供不同规模的模型版本。今日发布的是名为“Medium”的版本,具有20亿参数。这些模型权重可以通过Stability Platform进行实验,并且可以免费下载和用于非商业用途。
在二月宣布后,关于SD3模型权重的发布时间延迟引发了一些关于技术问题或管理不善的猜测。Stability AI近期陷入困境,其创始人兼CEO Emad Mostaque在三月离职,随后进行了裁员。在此之前,三位关键工程师——Robin Rombach、Andreas Blattmann和Dominik Lorenz——已离开公司。公司财务状况不佳的消息自2023年初以来持续流传。
对于Stable Diffusion的忠实用户而言,Stable Diffusion 3 Medium的失败可能是公司管理问题的一个直观体现,暗示着公司状况的恶化。尽管公司尚未正式宣告破产,但在看到SD3 Medium后,一些用户以黑色幽默的方式表达了看法:“看来现在他们可以在安全且合伦理的方式下‘破产’了。”
面对这一挑战,Stability AI正在努力通过改进和发布新的模型来应对,以克服当前面临的困难。对于AI图像合成爱好者和研究人员而言,每次模型的进步和失败都是技术发展进程中的重要组成部分。随着技术的不断演进和数据集的优化,未来的AI图像生成模型有望更好地解决现有问题,为用户提供更高质量的图像生成体验。