清华大佬整活:马斯克穿上东北大花袄、李白穿上背带裤
粉色连衣裙、清华黑色大波浪的大佬美女,惊恐转身后,整活露出了一神似张宋小宝的克穿裤娇俏面庞。微张的上东嘴唇,欲语还休。北大背带
美国的花袄三好青年马斯克,身着东北大花袄,李白站在微风阵阵的穿上白宫前边。小手一揣,清华略带局促地露出一抹拘谨、大佬正派的整活微笑。
而另一边,克穿裤魔卡少女小樱也正拉着隔壁的上东蕾姆,在三里屯商场里逛街。北大背带当然了,世超知道见识过各种 P 图软件和 AI 技术的你。估计看到这些效果,也是轻轻一笑说:
早半年前,哥就见过这种效果了。哥不仅能让马斯克换装,就是让他跳段舞,也是手拿把掐了。
但且慢,上面这些视频的生成方法,可能跟你以前见过的都不一样。这个用的是生数科技联合清华团队推出的视频模型 Vidu 1.5 ,这个模型有一个新的能力:多主体一致性。
用大白话来说,就是我们可以上传多张图片来生成视频。并且保证这些复杂的元素不会变形。比如上传角色、物体和地点的图,它可以用你指定的这些元素,做出一条视频来。
这样我们在生成的时候,就可以自己设定人物、物体还有场景。像马斯克这条视频,就是用了一张马斯克的大头照,一件花袄,还有一张白宫的图片,生成出来的。
丢一句简单的提示词, Vidu 就可以复刻出一条以假乱真的视频。让马斯克,穿上你给的大花袄,在白宫前秀一段。
这么整的好处显而易见,我们可以手动控制AI 生成的素材,让视频更合我们心意。以前我们只能扔一句话,或者扔一张照片,让 AI 自由发挥。最后结果很容易就脱离我们的预期。
比如你直接说让马斯克穿着大花袄,它就会真的在马褂上,画几朵大花。
如果 AI 的词库里,就没有大花袄这个东西。不论我们怎么调整提示词,最后都没法生成出来。
可现在,你不用使劲憋提示词了,只需要闭眼甩一张图。之前还没有视频模型可以做到这样,很多时候能把一张上传的图片处理明白,就已经相当得劲了。所以, Vidu 这个模型一发布。外网的各种网友们,立马就惊呼,然后开机上手了。
大家也可以直接打开 Vidu 的官方,上手试试看。不过,现在只有三次的免费机会,后面每次试用就会需要消耗 4 个积分。为了给大家整个明白,世超试用了一天。大伙可以往下滑,看看我的效果,再决定要不要玩。按照编辑部的约定俗成,咱们的吉祥物一般都是我第一个试的。
这回,我整了两张火锅戴头盔的照片,又上传了一张抹茶绿的雅迪电动车。输入提示词:金毛犬在骑雅迪电动车。
大概几十秒之后,带着黑色防风镜的火锅,就这么丝滑地骑上了小电驴。连胸前蓝色的挂饰,还有雅迪的橙色车标,都完整的保留了下来。这个一致性效果还是挺惊艳的。
还贴心地加上了吐舌头和摇尾巴的小细节。
?虽然火锅这个滑滑板一样的骑车动作,是肯定没法上路的。不过,因为狗本来就不会骑电驴,咱们也不能强求。后面,世超换了张乔布斯的大头照,这个效果就很可以了。而且,我还特地上了点难度。让乔布斯也和马斯克一样,穿上了咱们特色服饰军大衣。
硬朗五官配上笔挺大衣,效果还是非常板正的。乔布斯应该也没想到,自己有一天会坐上雅迪的橘色雅座吧。虽然只有正脸照,但是镜头转到侧方的时候,人物的特征( 比如小秃头 )还是还原得挺精准。
?
不过,上面这些都还是单一的人物主体,外加一个场景或者物品。抓取起来还是比较简单。
一般来说,我们加入的主体越多,大模型就可能抓取错误。于是我试了一下上传一张唐伯虎点秋香里经典图,然后要求把脸部替换成我给的另一张图。
它从一堆人的背影里,精准地找到秋香。让她把脸缓缓转过来,微微露出侧脸。虽然没有全脸示人,但眉眼就足够一眼丁真。
后面,我又加上了难度。不仅要替换服装,还要加上动作。让语文课本上的李白和蔡徐坤来个对换:李白穿着背带裤在打篮球。
这次, Vidu 给的效果就相当抽象了。它直接给坤换了个画风,整出了一个动画版。虽说保留的格子裤花纹小细节,足以体现用心。
但这个李白 260 °水调大转头,画面实在过于诡异了。也没有完成我输入的【 打篮球 】的指令。
在后面测试中,世超发现 Vidu 虽然能抠主体。但是,如果动作比较大,或者画面变化比较多,就容易出现上面突然转头的小 bug 。比如,让它把胖虎的玩具人偶放在冰雪女王的手上。
它确实能处理多个主体,让塑胶胖虎凭空变出来,而且,冰雪女王的动作和场景连贯性,基本可以以假乱真。但是,换进去的胖虎的动作,就明显有点小崩。在五秒里,连续抽搐变形了数次。
在一下午的测试里, Vidu 的生成效果总是时好时坏。世超一直在上一秒惊艳,下一秒惊吓的反复中来来回回。比如让雷军坐到问界的车里挥手。雷军就这么水灵灵地掉到了车外面,而且,脸也早已经崩坏了。
但是,同时它又能完美地让乐高国王,在城堡上举起长剑,激昂演讲。保持场景和人物,都连贯一致。
崩多了之后,我甚至摸出了一些门道。如果你看完文章后,打算去试试,那么在给主体照片的时候,最好找背景比较干净的图片。主体越好抠出来,生成的准确率就越高。
同时,给一个主体上传多个角度的照片,也能让他动起来更自然。因为模型可以构建出一个更完整的人物。
虽然根据 Vidu 官方的说法,他们这次放弃了业界主流的 LoRA 微调的方法。因为那种方法,很容易出现过拟合,就是在理解主体的过程中,会遗忘大量原先的知识。所以,主体的动作和肢体很容易崩坏,难以控制。画面里东西越多,变化越多,就越容易失控。而 Vidu 的新模型是用类似于大语言模型的技术,把所有输入都处理成视觉数据,并和大语言模型一样能 “ 上下文记忆 ” 地处理这些输入数据。这确实让 Vidu 在多主体的处理上,迈出了一大步。
但与此同时,经过简单测试后,世超觉得 Vidu 的这个技术还有很长一段路需要走。其实, Vidu 暴露的问题跟早期的文成视频很像。就是意思都到了,但是细节还不够,效果不稳定,时不时抽一下风。像这个电动车和公路场景,再怎么切换镜头都没有变形。就是运动的时候,人物出现了影分身。
指定图片:初音未来、雅迪电动车和公路
如果你想用它完全替代视频工作者的工作,世超觉得还是得等等。但 Vidu 肯定是值得上手玩玩看的。毕竟谁不想让喜欢的角色穿上我们挑选的衣服,不想让心意的 IP 角色或者明星,跨界同框一下呢。
- ·[流言板]爱德华兹全场得到27分5篮板6助攻1抢断
- ·评论员:这是库特自找的,他必须自食恶果,因为他做出了糟糕行为
- ·锁边任务完成!塔克拉玛干沙漠被围起来了
- ·中新人物丨商春松:一名退役体操运动员的“再就业”故事
- ·[流言板]生涯第十年!唐斯生涯首次连续2场比赛砍下双20数据
- ·[流言板]掘金今天主场丢145分,队史自1991年以来无加时最大失分
- ·[流言板]脑后长眼!兰德尔吸引三人防守,妙传里德三分命中追到3分
- ·同比增加0.4%:丰田汽车10月全球销量97.42万辆
- ·凯恩社媒晒英格兰世预赛抽签结果:非常期待世预赛开始
- ·维尼修斯为皇马39场24球11助攻+3冠,欧冠评分第1&西甲评分第2
- ·陶琳:特斯拉今年向供应链的付款周期又短了 只有共生共赢才能走得更远
- ·5499元起!消息称华为Mate 70标准版首销备货量很大 保值焕新不用抢
- ·《星之海》开发商表示游戏主要受到任天堂和每一款游戏值得学习的游戏的启发
- ·维卡里奥:麦克托米奈会是意甲的新发现劳塔罗会打进很多进球
- ·荣耀300系列跑分泄露:疑采用骁龙8 Gen3降频版
- ·米体:米兰赛前在更衣室用不同语言写着勇气,激励全队踢好德比战
- ·[流言板]有点小意外!库里本赛季出场17次,目前仅2场得分30+
- ·小朋友骑着机器狗逛街引关注 女网友上前一问花40万买的
- ·中新人物丨商春松:一名退役体操运动员的“再就业”故事
- ·小朋友骑着机器狗逛街引关注 女网友上前一问花40万买的
- ·[流言板]福克斯:东契奇明显打了我整个手臂,不知道他在抱怨什么
- ·我国自主第三代核电!全球最大的“华龙一号”核电基地首台机组并网发电
- ·TA讲述滕哈赫球员往事头脑灵活的场上教练一度与主帅冲突离队
- ·[流言板]太铁了!小克里斯蒂今日G联赛11中2得5分,上一场12中1拿6分
- ·指定人选🔥梅西:接班人?必须要选就是亚马尔,他是现在和未来
- ·TA讲述滕哈赫球员往事头脑灵活的场上教练一度与主帅冲突离队
- ·一起冲冠!皇马一线队全员入选洲际杯名单,包括赛季报销的重伤员
- ·每年省350万电费!腾讯落地国内首个“风光储”一体化数据中心微电网
- ·TA讲述滕哈赫球员往事头脑灵活的场上教练一度与主帅冲突离队
- ·[流言板]掘金今天主场丢145分,队史自1991年以来无加时最大失分
- ·有真实的料吗?。。。
- ·刚开俩月的新车 行驶中刹车失灵!车主换车遭拒
- ·每年省350万电费!腾讯落地国内首个“风光储”一体化数据中心微电网
- ·[流言板]Shams:蔡恩远未接近康复,鹈鹕队内预计他将缺阵到12月中旬
- ·[流言板]美记:快船积极兜售塔克&海兰德,愿搭上选秀权补强轮换
- ·小米15 Ultra外观曝光:经典黑红拼色设计 专业相机味十足