Nvidia 的研究人员发表了一篇关于新 AI 工具 DiffUHaul 的论文,该工具可以理解和移动图像中的物体,而无需改变其大小或背景。论文称,该工具“利用对局部文本到图像模型的空间理解来完成物体拖动任务。”
当前的文本转图像模型难以完成复杂的图像编辑任务,因为它们缺乏“空间推理”。DiffuHaul 通过将“空间推理”融入模型来解决此问题,使其能够跟踪图像中的对象,“无缝地”重新定位它们而不改变任何其他内容。
为了实现这一点,该工具在去噪步骤中屏蔽了对象,帮助它了解其位置并将其与背景分开。然后,它会插入原始图像和生成的图像之间的差异,以将对象放置在新位置而不触及背景。之后,原始图像中的更精细的细节和特征被移动到新图像以保持一致性。