OC 的数字图像生成 | 世界观

本节讨论 OC 角色图像是如何从文字设定逐步变成可反复使用的视觉形象。这里的”数字图像生成”不只指自动生成图像，也包括画师使用数位板、绘图软件、图层、笔刷和参考资料绘制 OC 的过程。

在前文的 OC 变换理论中，OC 的性质被抽象为特征向量函数 $\mathbf{q}(t)$ 。但在实际约稿或绘制中，WeiKnight 不会把 $\mathbf{q}(t)$ 以数学表格交给画师。画师真正接收到的通常是文字描述、设定图、色板、参考图、剧情说明或性格说明。

因此，OC 的数字图像生成可以分成两个主要方向：

文字设定到设定图：把语言描述转化为第一套稳定的视觉基准。
设定图到更多稿件：在已有视觉基准上，绘制不同姿势、表情、服装状态、场景和构图中的 OC 图像。

这两个方向对应了 OC 图像生产中的两个关键问题：首先要让 OC “长什么样”被确定下来，然后才能让这个 OC 在更多画面中保持一致。

基于文字设定的图像生成

文字设定是最常见的 OC 初始信息载体。例如设主可能写下：“银色长发，红色眼睛，黑色连衣裙，性格冷淡，使用冰系能力。“这些描述能够告诉画师角色的大致方向，但它们还不是可直接复用的视觉基准。

文字表达的是概念，设定图必须给出具体形状。同样是”银色长发”，可以是直发、卷发、低马尾、双马尾、齐腰长发，也可以是带蓝灰色阴影的冷银色，或接近白色的高亮银色。文字越短，第一张设定图需要补全的空白就越多。

文字设定的信息缺失

在特征向量函数的语言下，文字设定可以看作对 $\mathbf{q}(t)$ 的低密度描述。它只约束了部分特征，却没有完全规定发型轮廓、服装层级、材质、色彩比例和细节位置。

这种空白主要来自三类信息缺失：

形状缺失：文字说出了”有什么”，但没有说明轮廓、比例和结构。例如”披风”可以很短，也可以拖地；“角”可以是羊角、龙角或鹿角。
颜色与材质缺失：文字说出了颜色名称，但没有说明明度、饱和度、纹理和反光方式。例如”白色外套”可以是棉布、皮革、羽绒或金属装甲。
关系缺失：文字列出了多个元素，但没有说明它们如何组合。例如”黑裙、红宝石、银链”并不自动说明宝石在胸口、腰带还是发饰上。

因此，文字转设定图本质上是一个”解释并定型”的过程。画师先读懂文字，再根据经验、审美和画风，把没有被明说的部分补出来，并把补全结果固定为可供后续参考的视觉基准。

这一过程可用简化模型表示为： $I_{\text{设定图}}=G_{\text{text}\to\text{ref}}(T,A)$ 其中 $T$ 表示文字设定， $A$ 表示画师的解释、经验与画风， $I_{\text{设定图}}$ 表示生成后的设定图。这个公式不是用于计算，而是说明：设定图不是由文字单独决定的，它还包含画师对文字空白处的视觉判断。

文字设定的多解性

设定”白发、蓝眼、魔法师、安静”至少可以生成以下几种完全不同的图像方向：

穿长袍、手持法杖的古典魔法师；

穿学院制服、拿魔导书的学生型角色；

穿现代外套、使用冰晶能力的都市幻想角色；

头戴面纱、带宗教感饰品的神秘祭司。

这些结果都没有违背文字设定，但它们会形成不同的设定图。

文字转设定图完成后，OC 会获得第一套稳定的视觉基准。此时的设定图可以近似看作 $\mathbf{q}(t)$ 在某个初始状态 $t_0$ 下的视觉采样： $I_{\text{设定图}}\approx \text{Sample}(\mathbf{q}(t_0))$ 这里的”采样”表示把抽象的 OC 特征转化为一张具体可见的图像。设定图无法包含 OC 的全部可能状态，但它固定了后续稿件最重要的参考基准。

基于特征向量函数的图像生成

当设定图已经存在时，后续稿件不再从零开始解释文字，而是以设定图为视觉基准，绘制 OC 在不同动作、表情、场景和画风要求下的图像。

设定图不是普通参考图，而是 OC 特征的视觉说明书。它把原本需要大量文字解释的内容，压缩到可观察的形状、颜色和结构中。更多稿件的任务，是在不破坏这些稳定特征的前提下，让 OC 出现在新的画面中。

设定图提供的稳定特征

一张完整的设定图通常不只是”画得好看的一张图”。它承担的是说明功能。不同部分解决不同问题：

正面图：说明角色的主要识别点，如发型、脸型、服装正面结构、主要配色。
侧面图与背面图：说明从其他角度看不到的结构，如发尾长度、披风连接方式、背部装饰、武器挂载位置。
色板：固定颜色，避免”红色""蓝色""银色”等词在不同画师那里产生偏差。
服装拆解：说明衣服的层级关系。例如外套在披肩外面还是里面，腰带压住裙子还是挂在外层。
表情与姿态参考：说明角色的性格如何体现在脸部和身体语言中。
细节放大：说明眼睛纹样、徽章、耳饰、武器纹路等小尺寸但高识别度的部分。

这些信息共同降低了后续稿件的偏差。纯文字需要画师想象”它长什么样”，而设定图直接告诉画师”它大致就长这样”。所以设定图越完整，后续稿件越容易保持角色一致性。

从设定图到新稿件

画师看到设定图后，通常不会简单地把原图照抄到新画面中。真正的绘制过程更接近”提取稳定特征，再在新画面中重组”。这个理解过程可以分成几步：

读取轮廓：先确认角色的大形。例如头发外轮廓、服装剪影、武器长度、翅膀或尾巴的位置。
确认比例：判断头身比、肩宽、腿长、手脚大小等。比例一变，角色气质也会改变。
分解层级：理解衣服和饰品的前后关系。比如领结压在衬衫上，披风压在外套后，腰封压住裙腰。
识别重点：找出这个 OC 最不能丢的识别点。可能是眼睛形状、发饰、角、配色、纹身、武器或某个特殊符号。
推断变化：当角色转身、抬手、奔跑或受风吹时，头发、布料、饰品会如何移动。
匹配画风：把设定图转化为当前稿件的画风。厚涂、赛璐璐、Q版、立绘和头像对细节的取舍不同。

设定图给出的是约束，画师要在这些约束内完成新的图像。好的后续稿件不是机械复制设定图，而是在新构图中仍然保留”这是同一个 OC”的识别性。

这一过程可用简化模型表示为： $I_{\text{稿件}}=G_{\text{ref}\to\text{art}}(I_{\text{设定图}},C)$ 其中 $I_{\text{设定图}}$ 是视觉基准， $C$ 表示新稿件的构图、动作、表情、光照、场景和画风要求， $I_{\text{稿件}}$ 是最终稿件。

画师的逆向特征提取

画师接收到设定图后，其首要任务并非直接临摹，而是进行逆向特征提取。人类画师通过视觉皮层对设定图进行分析，试图在认知空间中重构出 OC 的原始特征向量 $\hat{\mathbf{q}}(t)$ 。

这一过程可表述为求解以下优化问题： $\hat{\mathbf{q}}(t) = \arg\min_{\mathbf{q}} \| \mathcal{P}(\mathbf{q}, \Theta_{\text{view}}) - I_{\text{ref}} \|^2 + \lambda \mathcal{R}(\mathbf{q})$ 其中 $\mathcal{R}(\mathbf{q})$ 是画师基于人体结构和物理规律的正则化项。

一旦 $\hat{\mathbf{q}}(t)$ 被成功解算（即画师”懂了”这个设定），画师便拥有了该 OC 的生成模型。

基于特征流形的广义生成

获得重构特征 $\hat{\mathbf{q}}(t)$ 后，画师的创作过程（即绘制新稿件）可被建模为特征向量在时间轴与状态空间上的外推与再渲染。

设主期望得到的稿件往往是 OC 在全新动作或场景下的图像 $I_{\text{new}}$ 。画师利用其内部的生物神经网络，执行以下变换： $I_{\text{new}} = \mathcal{H}_{\text{render}}\left( \mathcal{T}_{\text{motion}}(\hat{\mathbf{q}}(t), \Delta t, \mathbf{c}_{\text{context}}) \right)$

其中：

$\mathcal{T}_{\text{motion}}$ ：动力学演化算子。画师根据设定的物理属性（如头发软硬、裙摆材质），在大脑中模拟 OC 从设定状态运动到新动作状态时的形变。
$\mathbf{c}_{\text{context}}$ ：环境上下文向量（如光影、风向）。
$\mathcal{H}_{\text{render}}$ ：画师个人的艺术渲染函数（即画风）。

数字绘图中的生成流程

从数字绘图角度看，一张 OC 稿件通常经过以下阶段：

草图阶段：确定构图、动作和大比例。此时重点不是细节，而是角色是否站得住、姿势是否符合性格。
结构整理：修正人体、透视、服装层级和道具位置。复杂 OC 往往在这一阶段最容易出错。
线稿阶段：把结构固定下来，决定哪些线条是轮廓线，哪些线条是内部细节。
固有色阶段：铺上角色的基础颜色，并检查是否符合色板或设主要求。
明暗阶段：加入阴影和光源，让角色从平面设定变成有体积的图像。
材质与特效阶段：表现布料、金属、皮革、宝石、火焰、冰晶、魔法阵等特殊效果。
校对阶段：检查发型、配色、饰品、服装层级和角色气质是否偏离原设。

在这个流程中，越靠前的阶段越影响整体，越靠后的阶段越影响完成度。若草图阶段已经误解了角色比例，后面即使上色精美，也可能不像原来的 OC。

两类生成误差

OC 图像生成中的偏差主要有两类。

第一类是文字到设定图的误差。它来自语言描述的不完整。例如设主写了”短外套”，但没有说明长度、材质、袖口、扣子和内搭，画师就必须做出选择。这个阶段的误差会影响 OC 的第一套视觉基准。

第二类是设定图到更多稿件的误差。它来自视角、动作、表情、光影、构图和画风转换。例如设定图中正面可见的胸口徽章，在侧身动作中可能被手臂遮挡；长发在奔跑时会飘起；Q版稿件会省略部分复杂装饰。这个阶段的重点不是逐像素一致，而是保持核心识别点一致。

因此，文字、设定图和更多稿件之间不是简单复制关系，而是逐层约束关系。文字给出方向，设定图固定外观，更多稿件在此基础上扩展 OC 的可见状态。

理论优势总结

给定设定图 $I_{\text{ref}}$ 后，OC 特征向量的条件熵（Conditional Entropy） 远低于仅给定文字描述的情况。这意味着不确定性的显著降低，从而保证了稿件与 OC 原设的一致性（Consistency）。

本节小结

OC 的数字图像生成主要包括两个方向：文字设定转设定图，设定图转更多稿件。前者解决”这个 OC 的视觉基准是什么”，后者解决”这个 OC 如何在不同画面中继续保持一致”。

在 OC 变换理论的语言中，文字设定是对 $\mathbf{q}(t)$ 的低密度描述，设定图是对 $\mathbf{q}(t_0)$ 的初始视觉采样，更多稿件则是在不同状态和绘制条件下对 $\mathbf{q}(t)$ 的再次采样。这样，文字、设定图和稿件就被统一到同一套 OC 特征描述框架中。