昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

文章图片

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

智东西
作者 | 李水青
编辑 | 心缘
智东西6月28日报道 , 昨日深夜 , 阿里推出多模态统一理解与生成模型Qwen VLo 。 该模型不仅能够“看懂”世界 , 更能基于理解进行高质量的再创造 , 具有三大亮点:理解和生成更准确 , 支持开放指令编辑修改图片 , 多语言指令支持 。
用户即日起可以通过Qwen Chat访问该模型(预览版) , 比如直接发送类似“生成一张可爱猫咪的图片”的提示来生成图像 , 或者上传一张猫咪的图片并要求“给猫咪头上加顶帽子”来修改图像 。
Qwen VLo以一种渐进式生成方式生成图片 。 在生成过程中 , 模型会对预测的内容不断调整和优化 , 从而确保最终结果更加和谐一致 , 在提升视觉效果同时带来更灵活和可控的创作体验 。
体验地址: https://chat.qwenlm.ai/

一、理解和生成更准确 , 支持开放指令修改图片从最初的QwenVL到Qwen2.5 VL, 阿里本次推出的Qwen VLo在原始多模态理解与生成能力上进行了全面升级 。
以下是Qwen VLo的核心亮点:
1、更精准的内容理解与再创造
以往的多模态模型在生成过程中容易出现语义不一致的问题 , 例如将汽车误生成其他类型的物体 , 或者无法保留原图的关键结构特征 。 而Qwen VLo通过更强大的细节捕捉能力 , 能够在生成过程中保持高度的语义一致性 。
2、支持开放指令编辑修改生成
用户可以通过自然语言提出各种创意性指令 , 如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空” 。 Qwen VLo能够灵活响应这些开放性指令 , 并生成符合用户预期的结果 。
无论是艺术风格迁移、场景重构还是细节修饰 , 模型都能应对 。 甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也可以通过编辑指令轻松完成 。
更进一步 , 像很多更复杂的指令 , 比如一条指令中同时包含修改物体、修改文字、更换背景 , 模型也能完成 。
3、多语言指令支持
Qwen VLo支持包括中文、英文在内的多种语言指令 , 打破了语言壁垒 , 为全球用户提供了统一且便捷的交互体验 。

二、像人类画师一样精细创作 , 一句话“指哪改哪”Qwen VLo更像一个人类画师 根据自己的理解再进行创作 , 下面是一些具体的例子 。
1、该模型能够直接生成图像 , 并对其进行修改 , 例如替换背景、添加主体、进行风格迁移 , 甚至可以完成基于开放指令的大幅修改 , 包括检测和分割等视觉感知任务 。
用户:生成一个可爱的柴犬
Qwen VLo:
用户:背景改成草原
Qwen VLo:
用户:给它带上红色帽子和黑色透明墨镜帽子上写着“QwenVLo”
Qwen VLo:
用户:变成吉卜力风格
Qwen VLo:
用户:变成3d Q版风格
Qwen VLo:
用户:把它放到水晶球里
Qwen VLo:
用户:桌面上摆着这个水晶球 , 生成以一个人的第一视角在公园的圆形咖啡桌上在笔记本上画画
Qwen VLo:
用户:用蓝色的蒙版检测框框出图中的笔
Qwen VLo:
用户:用粉色的mask分割出图中的狗狗边缘
Qwen VLo:
2、Qwen VLo会根据自己的理解进行重新创作 , 这意味着在风格转换和迁移方面拥有更大的发挥空间 , 比如将卡通变为写实、将形象变成气球等有趣的生成效果 。
用户:变成真实照片
Qwen VLo:
用户:背景换成埃菲尔铁塔
Qwen VLo:
用户:变成气球飘到空中
Qwen VLo:
用户:把西瓜换成榴莲
Qwen VLo:
3、Qwen VLo在图像与指令理解上的优势使其能够更好地解析复杂指令 , 一条指令中可以包含多个操作和修改 , 从而一次性完成多重任务 , 例如生成海报、组合物体等 。
Qwen VLo:
4、Qwen VLo除了能对图像的编辑和再创作 , 还可以完成一些对已有信息的标注 , 比如检测、分割、边缘检测等 。
用户:生成摆满水果的桌面
Qwen VLo:
用户:预测边缘检测图
Qwen VLo:
用户:用红色mask分割图中香蕉的边缘
Qwen VLo:
5、Qwen VLo可以支持多张图像的输入理解和生成 。 (多图输入的功能还没有正式上线)
用户:把这些洗浴用品 , 放到这个红色的篮子里面
Qwen VLo:
6、除了图文同时输入的情况 , Qwen VLo也支持文本到图像的直接生成 , 包括通用图像和中英文海报等 。
用户:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy
(一幅史诗级的动漫艺术作品:夜晚 , 一位巫师立于山顶 , 向黑暗的天空施展宇宙咒语 , 由彩色能量构成的“Qwen VLo!”字样在夜空中显现 。 )
Qwen VLo:
7、Qwen VLo支持动态长宽比的图像生成 , 对于长宽比高达4:1 , 1:3等细长类型图像也能轻松掌握 。 (极端长宽比图像生成功能还没有正式上线 。 )
用户:动漫插画;水彩手绘;前景是草坡 , 草坡上有个人在奔跑 , 动态感 , 然后是厚重的白云;蓝色背景;颜色层次多渐变;过渡自然和谐
Qwen VLo:
8、作为统一的理解与生成模型 , Qwen VLo还可以对生成的内容进行再分析和理解 , 例如识别生成图片中的狗和猫的品种 。
用户:Generate a puppy and a kitten.
Qwen VLo:
用户:What breed of cat and dog is this?
Qwen VLo:

结语:统一理解与生成 , 看图说话再升级Qwen VLo还创新性地引入了一种全新的渐进式生成机制 , 这一机制不仅提升了生成效率 , 还适用于需要精细控制的长段落文字生成任务 。
同时 , Qwen VLo还属于预览阶段 , 在生成的过程可能存在不符合事实、不完全和原图一致、指令不遵循、在识别生图和理解的意图不够稳定的问题 。
未来 , 模型不仅可以用文本回答问题 , 还可以用图像来传递想法和含义 。 例如 , 生成示意图、添加辅助线、标注关键区域等功能 , 都将为用户提供更多元化的交流手段 。
【昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用】与此同时 , 具备输出能力的多模态模型也为研发者提供了新的监督方式 。 通过生成任务 , 他们们可以更好地帮助模型理解世界 。

    推荐阅读