摘要

这篇笔记梳理 SVGenius 如何把 SVG 任务拆成理解、编辑和生成三类，并用来自 24 个应用领域的数据构成 2377 个查询。文章重点整理了 Easy、Medium、Hard 的难度分层，HPS、PSS、CLIP、LPIPS、SSIM、DINO 等指标的用途，以及闭源模型、开源模型和通用模型在不同任务上的表现差异。读完之后，可以看到当前模型并不是简单地“会”或“不会”处理 SVG，而是在细节保真、结构一致性和复杂生成上各有短板。

1. 背景与动机#

LLMs 和 MLLMs 在处理 SVG 任务上表现出巨大潜力，但现有的测评基准存在真实世界覆盖有限、复杂度分层不足以及评估范式碎片化的问题。

基于此，本文提出了 SVGenius 基准测试，包含理解、编辑和生成三个大类 2377 个查询，基于来自 24 个应用领域的实际数据，总共细分为 8 类任务，使用 18 项指标对模型进行评估。在 22 个主流模型上进行了测评。

表 1 是 SVGenius 与现有 SVG-Benchmark 在 4个维度上进行了相关的对比：

构建方法：分为自动化（Automated）和混合（Hybrid）两种样本生成方式；
领域多样性：单一领域（Single）或多领域（Multi），反映样本覆盖的场景广度；
复杂度指标：路径数（Paths）和控制点数（Points），数值越高代表 SVG 结构越复杂；
任务覆盖：分为三大模块：理解（Understanding）、编辑（Editing）、生成（Generation），每个模块下有相关子问题；

如 表 1 所示，现有的 Benchmark 存在三个关键局限性：

范围有限：依赖于合成或过于简化的样本，无法反映真实世界图形在结构和语义上的多样性；
缺乏复杂度分层：对所有样本采取统一处理方式，未考虑对理解模型能力边界至关重要的结构复杂度；
评估碎片化：关注孤立的能力，而非实际应用所需的综合性 SVG 处理能力。

2. 核心贡献#

分析了现有 SVG Benchmark 的不足，并提出了一个全面的解决方案；
提出了 SVGenius，是第一个用户 SVG 处理的大规模、复杂度分层的真实数据基准；
评测了 22 个主流模型，分析了影响 SVG 处理能力的关键因素。

3. 数据构建#

本文从 Iconfont 获取了超过 10 万个 SVG 样本，基于结构有效性、语义有效性和表示简洁性进行了系统处理，为了确保语义清晰，十名志愿者人工审核了栅格化版本。

经过标准化处理（几何规范化、中心对齐、属性标准化）之后，最终得到了 927 个高质量样本。

本文通过三个定量指标定义复杂度：

路径数量（结构复杂度）
控制点数量（几何精细度）
复杂指令数量（高级操作）

这些指标通过规范化处理，并使用经验来确定具体的权重进行加权处理，根据得分，分为了简单、中等和困难三个等级（33%/34%/33%划分），从每个等级中选取 200 个候选样本进行人工抽检，每个等级保留 100 个高质量 SVG 文件，最终得到了一个涵盖 24 个实际领域的 300 个 SVG 样本集合。

4. 任务框架#

SVGenius 引入了一个涵盖三个逐步进阶能力维度的综合测评框架，确保能系统性的评估模型在各类实际应用中的全维度的能力。

4.1 理解任务#

本文引入了两个互补的理解任务，逐步评估模型从感知识别道语义解释的能力：

感知问答（PQA）：评估对 SVG 解释至关重要的基本视觉识别能力。模型必须从 SVG 代码中提取视觉线索，以识别包括颜色、形状、空间关系和数量在内的基本属性。以四选一的形式提问，要求直接解读代码，使用准确率作为评估指标。
语义问答（SQA）：评估超过字面属性的复杂视觉-语言理解能力。通过功能识别、意义总结和使用预测这三个类别实现语义理解，准确率作为衡量语义推理能力的主要指标。

4.2 编辑任务#

在理解的基础上，编辑任务用于评估模型执行精确、结构化代码操作的能力，本文设计了三种全面的编辑场景：

缺陷修复（BF）：针对 SVG 特有的错误进行修正，包括标签错误（格式不良的 XML 结构）、属性错误（格式不正确）以及路径命令错误（数据或序列格式不良），与通用程序修复的 Benchmark不同，这个任务是针对 SVG 的特性设计的，要求模型同时具备语法理解与语义保持能力，通过修复准确率来评估模型性能。
代码优化（CO）：评估模型在视觉正确性之外的代码质量提升。现实世界中的 SVG 生成常常会产生结构低效的代码，这个任务要求模型在遵循 SVGO-inspired principle来优化代码，同时保证渲染输出。使用均方误差（MSE）来保证渲染一致性，以及代码压缩率以量化压缩效果。
风格编辑（SE）：通过全局位置调整、局部元素移动、轮廓设置、颜色修改、渐变填充和模糊效果六种代表性操作来评估交互式修改能力。使用相对均方误差（rMSE）来进行质量检测，并将棋昱现有度量指标整合到一个四指标框架中。（这里因为风格编辑大部分都是局部微调，使用 MSE 灵敏度不足，所以增加了一个 rMSE，总共由 MSE、rMSE、RLD、准确率四个指标组成）

补充：

SVGO-inspired principles 具体包括：

清理冗余信息：删除 SVG 中的元数据（如生成器版本、作者注释）、隐藏元素、空标签、默认属性
路径优化：简化路径数据（合并重叠路径、删除冗余控制点）、降低坐标小数精度（如保留1-2位小数而非默认的6-8位）、用短命令替代长格式（如 SVG 路径命令的简写）
属性与样式优化：合并重复样式、优化颜色表示（如用#000 替代 #000000，用关键字 black 替代等价十六进制等）
结构优化：移除不必要的分组（如标签等）和嵌套层级、简化 ID / 类名、校准 viewBox等核心属性；
压缩代码：去除多余空格、换行和单位（如可以省略的px），进一步减小文件体积。

RLD（相对莱文斯坦距离），代表修改效率指标：

核心作用：从 SVG 代码层面评估模型修改的精准度和高效性，量化模型修改 SVG代码的最小改动成本。弥补了纯视觉指标的缺陷，确保模型不仅视觉效果达标，代码修改也精准化。
评估逻辑：计算模型输出 SVG 代码与ground truth 的RLD距离（插入、删除、替换的字符数），并做归一化处理；数值越小越好，代表模型仅对指令指定部分进行修改，无多余操作。

4.3 生成任务#

生成任务代表最复杂的能力建模维度，要求模型能够根据文本指令或多模态输入从零开始生成完整 SVG。本文提出了3个逐步增加难度的生成任务：

文本到 SVG（TTS）：评估自然语言到向量图形转换的基本能力。引入了 rCLIP 和 PSS 两个指标来评估语义对齐和代码级差异。和现有指标相结合，形成了一个三维框架：
- 感知质量（HPS，美学），衡量主观视觉吸引力
- 视觉可复现性（PSS），评估代码结构一致性
- 语义一致性（CLIP，rCLIP），评估语义保留程度
图像到 SVG（ITS）：通过要求从图像和文本中生成来解决自然语言到歧义问题，评估采用了两种方法：
- 通过 LPIPS、SSIM 和 DINO 进行感知相似度评估以衡量对齐程度
- 通过 PSS 和 MSE 评估视觉可复现性以检验一致性。
风格迁移（ST）：要求在保持内容的同时实现风格自适应。本文引入一项任务，要求生成保留结构内容的同时符合四种预定义风格类别（卡通、线稿、像素艺术、3D）的 SVG。并开发了一个两层自动化评估框架，利用大模型从全局和局部视角量化迁移质量。

第一层框架：采用 AlpacaEval 框架，以 DeepSeek-R1 为基准参考模型，选取了6个模型作为评估对象：

评估维度：从语义内容保真性、目标风格贴合度、整体视觉质量三个核心维度，将各个模型的输出与基准模型的输出做两两对比；
结果量化：以胜率作为指标，模型输出优于基准模型的样本数占总样本数的比例，胜率越高代表整体风格迁移能力越强。

第二层框架：局部多维度自动评分，本文设计了5个量化指标，并使用 GPT-4o-mini 作为自动化评估模型，对每个输出在每个指标上独立进行评分（范围1 - 5分，0分代表无效/错误的 SVG 输出），评分前模型会参考「原始 SVG、转换后的 SVG、风格描述、指标评分细则」生成详细反馈，再给出分数：

CP（Content Presevation）内容保真性：转换后是否保留原始 SVG 的所有主 / 次要元素、核心结构和语义
DF（Detail Fidelity）细节保真度：风格转换过程中，对原始 SVG 细节的保留程度（非风格相关细节）
SC（Style Consistency）风格一致性：转换后 SVG 与目标风格的贴合程度，是否符合该风格的视觉美学 / 规则
CH（Color Harmony）色彩和谐性：风格转换后的色彩搭配是否协调，是否符合目标风格的色彩特征
CB（Composition Balance）构图平衡性：风格转换后，SVG 的整体构图、元素布局是否保持平衡，无视觉失衡

5. 实验#

本文在 SVGenius 上评估了 22个模型，涵盖理解、编辑和生成任务。

如 表 2 所示，这个是 SVG 理解任务。

闭源模型（Claude 3.7-Sonnet、GPT-4o、Gemini-2.0-Flash）在两个任务中全面领先。
开源模型中推理增强型模型（DeepSeek-R1、DS-R1-Qwen-32B）和Qwen系列（Qwen3-8B/32B）表现较好，但在 Hard 难度下与闭源模型存在明显差距。
SQA 的整体准确率会低于 PQA，这说明语义理解比视觉感知更具有有挑战性。

如 表 3 所示，这个是 SVG 编辑任务（包含上文提到的三个子任务）。

在 Hard 难度下，多数模型的 BF 任务准确率骤降（如Qwen3-1.7B 在 Hard 难度下准确率直接为0了），这表明，复杂 SVG 编辑任务非常具有挑战性。
闭源模型（Claude-3.7-Sonnet、GPT-4o）在 SE 任务的 RLD 上表现最有，证明其能精准修改代码，减少冗余改动。
CO 任务中，Easy 难度下 CCR 较高，但难度提升后，CCR 和 MSE 都显著下降，这表明复杂的 SVG 任务，目前模型还难以兼顾体积与效果。
开源模型中， Deepseek-R1、DS-R1-Qwen-32B 在 BF 和 SE 上稳定性较强，尤其是 Medium 难度下，基本接近闭源模型。

如 表 4 所示，这个是 SVG 生成任务（包含上文提到的两个子任务 TTS 和 ST）。

在 TTS 任务上，闭源模型在 Easy 难度下 HPS 和 rCLIP 领先，生成的 SVG 更符合人类便好且文本对齐更精准， Hard 难度下 PSS 普遍下降，说明复杂文本生成的结构正确性很难保障。专用模型（Iconshop 和 LLM4SVG）在Easy难度下表现不错，但在 Medium/Hard 难度下被通用大模型超越，证明了通用模型在复杂场景具有更强泛化性能。
在 ST 任务上，Cluade-3.7-Sonnet 在 Meduim/Hard 难度下的 3D 风格表现突出，而开源模型在 Line art 风格下有一定优势，但整体仍然落后闭源模型。所有模型的 ST 上表现均显著低于 TTS 任务，说明高阶的风格重构任务仍然是模型的核心短板之一。

如表 5 所示，这个也是 SVG 生成任务（ITS任务）。

在 Medium/Hard 难度下，所有模型的 LPIPS 和 MSE 显著上升，说明复杂图像转矢量的难度极大。
闭源模型（Claude-3.7-Sonnet、GPT-4o）在所有难度下的 SSIM、DINO、PSS 均领先，生成的 SVG 在结构和视觉上更接近原始图像。
专用模型 StarVector 在 Easy 难度下 MSE 较低，但在 Hard 难度下被闭源模型超越，进一步证明了通用多模态模型在复杂图像转 SVG 任务上的优势。

6. 结论#

根据上述的实验我们可以发现，所有任务在 Easy → Medium → Hard 难度下性能显著下降，证明了 SVGenius 复杂度分层能精准却分模型能力边界。
闭源模型在理解、编辑和生成任务上，都遥遥领先，尤其在高难度任务和精细结构控制场景下。
推理增强型开源模型在理解和编辑任务上表现突出，部分指标接近闭源模型，但在生成任务上仍然有差距。
根据实验结果可以得出任务的难度比较关系：
- 理解维度：语义理解 > 视觉感知
- 编辑维度：CO $\approx$ SE > BF
- 生成维度：ST $\approx$ ITS > TTS
通用模型在复杂场景下，相比专用模型，泛化能力更强，也说明了其在 SVG 处理上的潜力。

7. 不足之处#

虽然论文有 2377 条任务进行评估，但总共只有 300 条 SVG 样本，是否能支持 Benchmark 存疑。
Bug Fixing 的准确率采用和GT的严格等价判断逻辑，这基本等价于去除空白后的字符串完全匹配。这样会存在一定问题，因为 SVG/XML 语义等价非常常见，这样严格等价偏向测试模型猜测原文的能力而不是修复语义。
Image-to-SVG 任务的 Prompt 被作者限制只能使用元素且只能使用 fill 和 d 两个属性，还要求必须使用完全固定的 opening tag/viewBox，这样可能会收缩相关的任务空间，变成几何只靠 d（path数据）来表达，颜色只靠 fill 来表达，这样任务变成了能不能把图像轮廓拆成若干 path，并给出合理的 fill 和 d。
Style Editing 指标设计仍然存在一些问题，如：
- RLD 在 raw XML 同样会受空白、属性顺序、等价写法的影响
Style Transfer 任务的评测高度依赖 LLM-as-a-judge，可能会引入评估器偏置和reference model 选择偏置的问题，也缺乏与人类一致性的定量验证（比如做一些人工抽检）。

1. 背景与动机#

2. 核心贡献#

3. 数据构建#

4. 任务框架#

4.1 理解任务#

4.2 编辑任务#

4.3 生成任务#

5. 实验#

6. 结论#

7. 不足之处#

文章分享

评论区

文章目录

SVGenius 论文笔记：Benchmarking LLMs in SVG Understanding, Editing and Generation

1. 背景与动机#

2. 核心贡献#

3. 数据构建#

4. 任务框架#

4.1 理解任务#

4.2 编辑任务#

4.3 生成任务#

5. 实验#

6. 结论#

7. 不足之处#

文章分享

评论区

文章目录