SVGenius 论文笔记:Benchmarking LLMs in SVG Understanding, Editing and Generation

3791 字
19 分钟
SVGenius 论文笔记:Benchmarking LLMs in SVG Understanding, Editing and Generation

1. 背景与动机#

LLMs 和 MLLMs 在处理 SVG 任务上表现出巨大潜力,但现有的测评基准存在真实世界覆盖有限、复杂度分层不足以及评估范式碎片化的问题。

基于此,本文提出了 SVGenius 基准测试,包含理解、编辑和生成三个大类 2377 个查询,基于来自 24 个应用领域的实际数据,总共细分为 8 类任务,使用 18 项指标对模型进行评估。在 22 个主流模型上进行了测评。

SVGenius 与现有 SVG 基准的覆盖范围对比
SVGenius 与现有 SVG 基准的覆盖范围对比

表 1 是 SVGenius 与 现有 SVG-Benchmark 在 4个维度上进行了相关的对比:

  1. 构建方法:分为自动化(Automated)和混合(Hybrid)两种样本生成方式;

  2. 领域多样性:单一领域(Single)或多领域(Multi),反映样本覆盖的场景广度;

  3. 复杂度指标:路径数(Paths)和控制点数(Points),数值越高代表 SVG 结构越复杂;

  4. 任务覆盖:分为三大模块:理解(Understanding)、编辑(Editing)、生成(Generation),每个模块下有相关子问题;

表 1 所示,现有的 Benchmark 存在三个关键局限性:

  1. 范围有限:依赖于合成或过于简化的样本,无法反映真实世界图形在结构和语义上的多样性;

  2. 缺乏复杂度分层:对所有样本采取统一处理方式,未考虑对理解模型能力边界至关重要的结构复杂度;

  3. 评估碎片化:关注孤立的能力,而非实际应用所需的综合性 SVG 处理能力。

2. 核心贡献#

  1. 分析了现有 SVG Benchmark 的不足,并提出了一个全面的解决方案;

  2. 提出了 SVGenius,是第一个用户 SVG 处理的大规模、复杂度分层的真实数据基准;

  3. 评测了 22 个主流模型,分析了影响 SVG 处理能力的关键因素。

3. 数据构建#

SVGenius 数据构建与复杂度分层流程
SVGenius 数据构建与复杂度分层流程

本文从 Iconfont 获取了超过 10 万个 SVG 样本,基于结构有效性、语义有效性和表示简洁性进行了系统处理,为了确保语义清晰,十名志愿者人工审核了栅格化版本。

经过标准化处理(几何规范化、中心对齐、属性标准化)之后,最终得到了 927 个 高质量样本。

本文通过三个定量指标定义复杂度:

  1. 路径数量(结构复杂度)

  2. 控制点数量(几何精细度)

  3. 复杂指令数量(高级操作)

这些指标通过规范化处理,并使用经验来确定具体的权重进行加权处理,根据得分,分为了简单、中等和困难三个等级(33%/34%/33%划分),从每个等级中选取 200 个候选样本进行人工抽检,每个等级保留 100 个 高质量 SVG 文件,最终得到了一个涵盖 24 个实际领域的 300 个 SVG 样本集合

4. 任务框架#

SVGenius 引入了一个涵盖三个逐步进阶能力维度的综合测评框架,确保能系统性的评估模型在各类实际应用中的全维度的能力。

4.1 理解任务#

本文引入了两个互补的理解任务,逐步评估模型从感知识别道语义解释的能力:

  1. 感知问答(PQA):评估对 SVG 解释至关重要的基本视觉识别能力。模型必须从 SVG 代码中提取视觉线索,以识别包括颜色、形状、空间关系和数量在内的基本属性。以四选一的形式提问,要求直接解读代码,使用准确率作为评估指标。

  2. 语义问答(SQA):评估超过字面属性的复杂视觉-语言理解能力。通过功能识别、意义总结和使用预测这三个类别实现语义理解,准确率作为衡量语义推理能力的主要指标。

4.2 编辑任务#

在理解的基础上,编辑任务用于评估模型执行精确、结构化代码操作的能力,本文设计了三种全面的编辑场景:

  1. 缺陷修复(BF):针对 SVG 特有的错误进行修正,包括标签错误(格式不良的 XML 结构)、属性错误(格式不正确)以及路径命令错误(数据或序列格式不良),与通用程序修复的 Benchmark不同,这个任务是针对 SVG 的特性设计的,要求模型同时具备语法理解与语义保持能力,通过修复准确率来评估模型性能。

  2. 代码优化(CO):评估模型在视觉正确性之外的代码质量提升。现实世界中的 SVG 生成常常会产生结构低效的代码,这个任务要求模型在遵循 SVGO-inspired principle来优化代码,同时保证渲染输出。使用均方误差(MSE)来保证渲染一致性,以及代码压缩率以量化压缩效果。

  3. 风格编辑(SE):通过全局位置调整、局部元素移动、轮廓设置、颜色修改、渐变填充和模糊效果六种代表性操作来评估交互式修改能力。使用相对均方误差(rMSE)来进行质量检测,并将棋昱现有度量指标整合到一个四指标框架中。(这里因为风格编辑大部分都是局部微调,使用 MSE 灵敏度不足,所以增加了一个 rMSE,总共由 MSE、rMSE、RLD、准确率四个指标组成)

补充:

SVGO-inspired principles 具体包括:

  1. 清理冗余信息:删除 SVG 中的元数据(如生成器版本、作者注释)、隐藏元素、空标签、默认属性

  2. 路径优化:简化路径数据(合并重叠路径、删除冗余控制点)、降低坐标小数精度(如保留1-2位小数而非默认的6-8位)、用短命令替代长格式(如 SVG 路径命令的简写)

  3. 属性与样式优化:合并重复样式、优化颜色表示(如用#000 替代 #000000,用关键字 black 替代等价十六进制等)

  4. 结构优化:移除不必要的分组(如标签等)和嵌套层级、简化 ID / 类名、校准 viewBox等核心属性;

  5. 压缩代码:去除多余空格、换行和单位(如可以省略的px),进一步减小文件体积。

RLD(相对莱文斯坦距离),代表修改效率指标:

  • 核心作用:从 SVG 代码层面评估模型修改的精准度和高效性,量化模型修改 SVG代码的最小改动成本。弥补了纯视觉指标的缺陷,确保模型不仅视觉效果达标,代码修改也精准化。

  • 评估逻辑:计算模型输出 SVG 代码与ground truth 的RLD距离(插入、删除、替换的字符数),并做归一化处理;数值越小越好,代表模型仅对指令指定部分进行修改,无多余操作。

4.3 生成任务#

生成任务代表最复杂的能力建模维度,要求模型能够根据文本指令或多模态输入从零开始生成完整 SVG。本文提出了3个逐步增加难度的生成任务:

  1. 文本到 SVG(TTS):评估自然语言到向量图形转换的基本能力。引入了 rCLIP 和 PSS 两个指标来评估语义对齐和代码级差异。和现有指标相结合,形成了一个三维框架:

    • 感知质量(HPS,美学),衡量主观视觉吸引力

    • 视觉可复现性(PSS),评估代码结构一致性

    • 语义一致性(CLIP,rCLIP),评估语义保留程度

  2. 图像到 SVG(ITS):通过要求从图像和文本中生成来解决自然语言到歧义问题,评估采用了两种方法:

    • 通过 LPIPS、SSIM 和 DINO 进行感知相似度评估以衡量对齐程度

    • 通过 PSS 和 MSE 评估视觉可复现性以检验一致性。

  3. 风格迁移(ST):要求在保持内容的同时实现风格自适应。本文引入一项任务,要求生成保留结构内容的同时符合四种预定义风格类别(卡通、线稿、像素艺术、3D)的 SVG。并开发了一个两层自动化评估框架,利用大模型从全局和局部视角量化迁移质量。

第一层框架:采用 AlpacaEval 框架,以 DeepSeek-R1 为基准参考模型,选取了6个模型作为评估对象:

  1. 评估维度:从语义内容保真性、目标风格贴合度、整体视觉质量三个核心维度,将各个模型的输出与基准模型的输出做两两对比;

  2. 结果量化:以胜率作为指标,模型输出优于基准模型的样本数占总样本数的比例,胜率越高代表整体风格迁移能力越强。

第二层框架:局部多维度自动评分,本文设计了5个量化指标,并使用 GPT-4o-mini 作为自动化评估模型,对每个输出在每个指标上独立进行评分(范围1 - 5分,0分代表无效/错误的 SVG 输出),评分前模型会参考「原始 SVG、转换后的 SVG、风格描述、指标评分细则」生成详细反馈,再给出分数:

  1. CP(Content Presevation)内容保真性:转换后是否保留原始 SVG 的所有主 / 次要元素、核心结构和语义

  2. DF(Detail Fidelity)细节保真度:风格转换过程中,对原始 SVG 细节的保留程度(非风格相关细节)

  3. SC(Style Consistency)风格一致性:转换后 SVG 与目标风格的贴合程度,是否符合该风格的视觉美学 / 规则

  4. CH(Color Harmony)色彩和谐性:风格转换后的色彩搭配是否协调,是否符合目标风格的色彩特征

  5. CB(Composition Balance)构图平衡性:风格转换后,SVG 的整体构图、元素布局是否保持平衡,无视觉失衡

5. 实验#

本文在 SVGenius 上评估了 22个模型,涵盖理解、编辑和生成任务。

SVGenius 理解任务评测结果
SVGenius 理解任务评测结果

表 2 所示,这个是 SVG 理解任务。

  1. 闭源模型(Claude 3.7-Sonnet、GPT-4o、Gemini-2.0-Flash)在两个任务中全面领先。

  2. 开源模型中推理增强型模型(DeepSeek-R1、DS-R1-Qwen-32B)和Qwen系列(Qwen3-8B/32B)表现较好,但在 Hard 难度下与闭源模型存在明显差距。

  3. SQA 的整体准确率会低于 PQA,这说明语义理解比视觉感知更具有有挑战性。

SVGenius 编辑任务评测结果
SVGenius 编辑任务评测结果

表 3 所示,这个是 SVG 编辑任务(包含上文提到的三个子任务)。

  1. 在 Hard 难度下,多数模型的 BF 任务准确率骤降(如Qwen3-1.7B 在 Hard 难度下准确率直接为0了),这表明,复杂 SVG 编辑任务非常具有挑战性。

  2. 闭源模型(Claude-3.7-Sonnet、GPT-4o)在 SE 任务的 RLD 上表现最有,证明其能精准修改代码,减少冗余改动。

  3. CO 任务中,Easy 难度下 CCR 较高,但难度提升后,CCR 和 MSE 都显著下降,这表明复杂的 SVG 任务,目前模型还难以兼顾体积与效果。

  4. 开源模型中, Deepseek-R1、DS-R1-Qwen-32B 在 BF 和 SE 上稳定性较强,尤其是 Medium 难度下,基本接近闭源模型。

SVGenius 文本生成与风格迁移任务评测结果
SVGenius 文本生成与风格迁移任务评测结果

表 4 所示,这个是 SVG 生成任务(包含上文提到的两个子任务 TTS 和 ST)。

  1. 在 TTS 任务上,闭源模型在 Easy 难度下 HPS 和 rCLIP 领先,生成的 SVG 更符合人类便好且文本对齐更精准, Hard 难度下 PSS 普遍下降,说明复杂文本生成的结构正确性很难保障。 专用模型(Iconshop 和 LLM4SVG)在Easy难度下表现不错,但在 Medium/Hard 难度下被通用大模型超越,证明了通用模型在复杂场景具有更强泛化性能。

  2. 在 ST 任务上,Cluade-3.7-Sonnet 在 Meduim/Hard 难度下的 3D 风格表现突出,而开源模型在 Line art 风格下有一定优势,但整体仍然落后闭源模型。所有模型的 ST 上表现均显著低于 TTS 任务,说明高阶的风格重构任务仍然是模型的核心短板之一。

SVGenius 图像到 SVG 生成任务评测结果
SVGenius 图像到 SVG 生成任务评测结果

如 表 5 所示,这个也是 SVG 生成任务(ITS任务)。

  1. 在 Medium/Hard 难度下,所有模型的 LPIPS 和 MSE 显著上升,说明复杂图像转矢量的难度极大。

  2. 闭源模型(Claude-3.7-Sonnet、GPT-4o)在所有难度下的 SSIM、DINO、PSS 均领先,生成的 SVG 在结构和视觉上更接近原始图像。

  3. 专用模型 StarVector 在 Easy 难度下 MSE 较低,但在 Hard 难度下被闭源模型超越,进一步证明了通用多模态模型在复杂图像转 SVG 任务上的优势。

6. 结论#

  1. 根据上述的实验我们可以发现,所有任务在 Easy → Medium → Hard 难度下性能显著下降,证明了 SVGenius 复杂度分层能精准却分模型能力边界。

  2. 闭源模型在理解、编辑和生成任务上,都遥遥领先,尤其在高难度任务和精细结构控制场景下。

  3. 推理增强型开源模型在理解和编辑任务上表现突出,部分指标接近闭源模型,但在生成任务上仍然有差距。

  4. 根据实验结果可以得出任务的难度比较关系:

    • 理解维度:语义理解 > 视觉感知

    • 编辑维度:CO \approx SE > BF

    • 生成维度:ST \approx ITS > TTS

  5. 通用模型在复杂场景下,相比专用模型,泛化能力更强,也说明了其在 SVG 处理上的潜力。

7. 不足之处#

  1. 虽然论文有 2377 条任务进行评估,但总共只有 300 条 SVG 样本,是否能支持 Benchmark 存疑。

  2. Bug Fixing 的准确率采用和GT的严格等价判断逻辑,这基本等价于去除空白后的字符串完全匹配。这样会存在一定问题,因为 SVG/XML 语义等价非常常见,这样严格等价偏向测试模型猜测原文的能力而不是修复语义。

  3. Image-to-SVG 任务的 Prompt 被作者限制只能使用 元素且只能使用 fill 和 d 两个属性,还要求必须使用完全固定的 opening tag/viewBox,这样可能会收缩相关的任务空间,变成几何只靠 d(path数据)来表达,颜色只靠 fill 来表达,这样任务变成了能不能把图像轮廓拆成若干 path,并给出合理的 fill 和 d。

  4. Style Editing 指标设计仍然存在一些问题,如:

    • RLD 在 raw XML 同样会受空白、属性顺序、等价写法的影响
  5. Style Transfer 任务的评测高度依赖 LLM-as-a-judge,可能会引入评估器偏置和reference model 选择偏置的问题,也缺乏与人类一致性的定量验证(比如做一些人工抽检)。

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

SVGenius 论文笔记:Benchmarking LLMs in SVG Understanding, Editing and Generation
https://blog.llm101.moe/posts/20250908/
作者
千早爱音
发布于
2025-09-08
许可协议
CC BY-NC-SA 4.0

评论区

Profile Image of the Author
千早爱音
记录技术、阅读与日常的个人站点。
分类
标签
站点统计
文章
4
分类
2
标签
10
总字数
15,559
运行时长
0
最后活动
0 天前

文章目录