9月 28
  1. 今天
  2. 星期六
37:00
grade

近期,文本生成图像领域取得了显著进展,众多模型具备基于文本指令生成高质量且多样化的图像的能力。尽管生成的图像已达到相当逼真的水平,但现有模型往往擅长创作风景、物件等实体图像,却难以生成包含复杂文字图案,如汉字等高度连贯细节的图像。

为解决这一挑战,OPPO等机构的研究人员引入了通用学习框架——GlyphDraw。此框架旨在使模型能够生成整合文字的图像,这是图像合成领域首次专注于解决汉字生成问题的工作。通过利用辅助信息,如汉字字形和位置,整个生成过程得以提供细致指导,从而实现在图像中高质量、无缝地嵌入汉字。

该研究的核心贡献包括:

  1. 首创汉字图像生成框架:GlyphDraw框架利用辅助信息,包括汉字字形和位置,确保汉字图像的高质量和精确嵌入。

  2. 有效训练策略:该研究提出了一种策略,限制预训练模型中的可训练参数数量,以避免过拟合和灾难性遗忘,同时保持模型在开放域生成性能上的强大表现,实现了精准的汉字图像生成。

  3. 数据集构建与基准评估:研究构建了用于定性和定量评估的基准数据集ChineseDrawText,并在此基础上比较了几种方法的生成准确率,由OCR识别模型评估。

实验结果显示,采用 GlyphDraw 方法,平均准确率达到75%,显著优于之前的图像合成技术。此外,通过控制训练参数,模型在MS-COCO FID-10k上的一般图像合成的FID值仅下降了2.3,这表明在保持开放域图像合成性能的同时,仍能实现高效的文字图像生成。

如果您对这项研究感兴趣,建议阅读原始论文以获取更多详细信息。该研究不仅为图像合成领域带来了新的视角,也为未来在文字图像生成方面的应用提供了可能。