最近,东京大学和Adobe一起推出了一个很有意思的技术,叫做InstructMove。这个东西厉害在于它能根据我们给出的指令,自主学习如何编辑图像。它的背后依托的是大型多模态语言模型(MLLMs),这些模型能够从视频帧的变化中找出编辑图像的方法。所以,InstructMove不光能保持图像内容的真实,还能完成一些很复杂的编辑任务,比如改变人物姿势或者调整表情和视角。它用的是真实视频帧作为数据,这样一来就避免了那些合成数据的局限性。而且,它还能通过掩码进行精确的局部编辑,灵活性和实用性都不在话下。
InstructMove项目:https://ljzycmd.github.io/projects/InstructMove/
InstructMove有什么厉害功能?
- 灵活的图像编辑:能根据需要调整图像中的姿势和表情,执行起来相当灵活。
- 视角改变:可以根据要求调整相机视角,比如左右移动,改变图像的整体构图和视觉效果。
- 元素移动:想把图中的某些元素重新摆放一下?没问题,比如把玩具的腿重新排一下,或者让鸟的尾巴多露出一点,仅仅是几个操作的事。
- 精确的局部调整:和掩码等机制结合,可以对目标区域进行细致的局部修改,效果非常细腻。
InstructMove是怎么工作的?
- 数据采集:从网上的视频中抽取帧对,这些帧对之间有着自然的变化,比如姿势的变动或者视角的调整,利用这些实际样本来提升数据的真实度。
- 生成编辑指令:通过像GPT-4这样的多模态大型语言模型,分析帧对之间的差异,生成精确的编辑指令。
- 模型训练:用构建的数据集对预训练的模型进行微调,比如Stable Diffusion,用来提升模型的图像到文本能力。
- 去噪处理:利用去噪U-Net网络,通过预测和对比噪声图,优化图像编辑的准确度。
- 控制机制整合:包括掩码引导等,支持对特定区域的精准编辑,结合像ControlNet这样的模型,提供更多图像编辑的可能性。
知识拓展与应用场景
- 影视制作:可以把角色表情调整得更符合剧情需要,例如让外星生物看起来更加愤怒。
- 广告设计:调整汽车广告中的赛车角度,突出速度和激情,吸引眼球。
- 室内设计:根据客户需求调整家具位置,营造出既美观又实用的空间。
- 艺术教学:帮助学生理解不同动作与情感之间的联系,提高在艺术创作中的领悟。
- 个人照片处理:让聚会照片中的每个人看起来更自然,为朋友圈增添色彩。
InstructMove这个技术正在悄悄改变我们的图像编辑方式,期待它未来能给更多行业带来改变!
本站资源来源于网络,仅限用于学习和研究目的,请勿用于其他用途。如有侵权请发送邮件至vizenaujmaslak9@hotmail.com删除。:FGJ博客 » InstructMove – 指令式图像编辑AI模型