


经过大量的测试,我们发现,Kontext非常擅长直接修改对象。
这里有一个总结:
根据经验,如果每次编辑的指令数量不太复杂,那么让事情更明确是不会有什么坏处。
就是说,尽可能的描述更多细节,能提高最终生成的效果。
在处理样式传输提示时,下面是常见的三种方式:
为特定样式命名 :不要使用“使其具有艺术性”等模糊术语,而是准确指定您想要的样式(“转换为包豪斯艺术风格”、“转换为水彩画”)
引用已知的艺术家或运动 :要获得更准确的结果,请包含可识别的风格引用(“文艺复兴时期的绘画风格”、“像 1960 年代的波普艺术海报”)
详细说明关键特征 :如果命名样式不起作用,最好描述定义样式的视觉元素:
保留重要内容 :明确说明哪些元素不应更改:
您还可以使用输入图像作为样式引用来生成新图像。
例如:
使用此样式,一只兔子、一只狗和一只猫正在围着一张白色小桌子坐着喝茶
昨天我们也提到过这种方式,就是已经有一张原图,想要参考风格图,让原图发送风格的转化,这也是可以的
将图片女人的绘画风格转换成图2的绘画风格,保持构图不变,只是变风格
kontext 擅长保持角色的一致性,即使经过多次编辑。从参考图片开始,我们可以看到角色在整个序列中的一致性。每次编辑使用的提示词都显示在每张图片的标题下方。
保持角色一致性的框架:
❝常见错误:使用诸如 “她” 这样模糊的指代,而不是 “留着黑色短发的女人”
Kontext 可以直接编辑图像中的文本,使得更新标志、海报、标签等内容变得简单,无需重新创建整个图像。
编辑文本的最有效方法是使用引号标出你想要更改的具体文本:
提示词结构:将 '[原始文本]' 替换为 '[新文本]'
示例 - 我们可以看到下面的输入图像中写着“Choose joy”,然后我们将“joy”替换为“BFL”——注意 BFL 使用的是大写格式。
文本编辑最佳实践:
这个是个很有意思的小技巧,就是手动添加一些符号,让AI可以快速的识别,比如加一些红色框框,当您想要对图像的特定区域进行有针对性的更改时,这可能特别有用。通过提供视觉标记或参考点,您可以指导模型专注于特定区域。
比如有一张有红框和绿框的图,我可以分别指定局部操作,来看看AI是否识别我的精准指令。
在绿框中添加帽子
在红框中添加帽子
测试绿框的时候一次成功,测试红框的时候好几次会同时生成帽子
其实这里我们可以手动自己通过遮罩来圈定范围,我也经常这么做,这里给出核心添加线框的方案
接一个图像与遮罩预览,然后颜色按我这样写就是红色,图片那边右键在遮罩中打开把想要处理的物体圈出来即可。
remove the red mask section
这样子好像还不能突出这个框选的好处,再找个例子,比如下面这张图,有好多物体,我只用简单的命令移除香水,就会移除2个地方,这样就不精准了。
我指定移除下方第二个香水,这时候就不行了,这种时候就需要我们手动框选物体小技巧了。
移除红框内的香水,其他保持不变
注意,这里测试了3次才成功,我猜可能是我想移除的这个香水太小了,系统不好识别,左上角这个框中一次就成功。
其实今天我又测了好多次多图参考的,老实说成功率不是很高,特别是对物理世界实际大小的逻辑参考不合理,昨天也有提过一个小技巧,就是提前做缩放,今天继续教一个小技巧。
我们上面有提到,Kontext单图编辑下效果是最强的,那我们可以结合这一点,提前把一些要融合的东西先整合到一张图里面,然后再利用单图编辑的能力去处理。
核心利用我们以前介绍的FastCanvas这个图像拼接能力,可以指定大小和位置。
继续拿昨天的案例测试看看
让图中小女孩坐在沙发上,地上趴着一只小猫
太强了,我可以随意摆放位置,以及控制角色大小,利用它的单图极强的编辑能力,做出修改。
让图中小女孩躺在沙发上,地上也躺着一只小猫
再换个案例
让图中女人坐在室内环境中,手里拿着l黑色手提包
不错,这种可控的布局,再加上Kontext的强编辑能力,确实让出图质量成功提高了。
这个流也分享到RH上,感兴趣的可以去体验:
Kontext Dev多图融合技巧(更可控):https://www.runninghub.cn/post/1939332448016637954?inviteCode=kol01-rh024
如果模型正在更改要保持不变的元素,请在提示符中明确说明保留。例如:“ 其他所有内容都应保持黑白” 或“ 保持原始图像的所有其他方面 ”。
在转换一个人时(改变他们的服装、风格或上下文),如果提示不够具体,很容易失去他们独特的身份特征。
在编辑背景或场景时,你通常希望保持主体的位置、比例和姿势不变。简单的提示词有时会改变这些方面。
简单的提示词导致的不必要变化:
如果你想精准的控制一致性,提示词应该像下面这样写:
这个就完全一致,完美,提示词拿去抄作业吧。
为什么会这样?
像 “把他放在海滩上” 这样的模糊指令留给太多的解释。Kontext 可能会选择:
应用某些风格时,简单的提示词可能会产生不一致的结果,或丢失原始构图中的重要元素。我们在上面的例子中可以看到这一点。
基础风格提示可能会丢失重要元素:
精确的风格提示保持结构:
具体 :精确的语言会提供更好的结果。使用准确的颜色名称、详细的描述和清晰的动作动词,而不是模糊的术语。
从简单开始:在增加复杂性之前,先从核心更改开始。首先测试基本编辑,然后在成功的结果的基础上进行构建。Kontext 可以很好地处理迭代编辑,使用它。
有意识地保留 :明确说明哪些内容应保持不变。使用 “同时保持相同的 [面部特征/构图/照明]” 等短语来保护重要元素
需要时迭代 :复杂的转换通常需要多个步骤。将戏剧性的更改分解为连续编辑,以便更好地控制。
直接命名主题 :使用“the woman with short black hair”或“the red car”,而不是“her”、“it”或“this”等代词,以获得更清晰的结果。
对文本使用引号 :引用要更改的确切文本: 将“joy”替换为“BFL” 比一般文本描述效果更好。
显式控制合成 :更改背景或设置时,请指定 “保持精确的摄像机角度、位置和取景”,以防止不必要的重新定位。
仔细选择动词 :“Transform” 可能意味着完全改变,而 “change the clothes” 或 “replace the background” 可以让你更好地控制实际变化的内容。