火遍小红书的 AI 视频神器，这次整出的新活又让我停不下来

2024-12-18 13:35:32

AI 视频的多主体一致性，向来是个难题。让 AI 凭空生成模特和衣服不难，但如果甲方要求，必须要让马斯克代言，穿上毛绒大衣，AI 可能就办不到了。

Pika 最近更新的 2.0 模型，提出了一种很有趣的解决方式——我们上传多张图片，Pika 会精准参考图片中的元素，生成视频。

pika55

集齐人物、商品、场景的照片，一个非常基础的广告片就出炉了，而且这些素材在视频里长得都和照片里一样。

model1

这是否意味着，AI 视频的一致性难题解决了，广告行业的朋友们又要焦虑了？其实并没有，经过实测，Pika 的可玩性很高，但论实用，道行还不够。

马斯克和奥特曼看电影，名画吃薯条，同框从未如此简单

Pika 上传多张参考图片的功能，叫作「Scene Ingredients」（场景成分）。

pika7

使用起来很简单：1.点击「+」上传图片，上限 6 张；2.在文本框里，写上简单的提示词。

接下来就进入实操——让闹得水深火热的马斯克和奥特曼，化干戈为玉帛，在一起看电影。

test44

▲提示词：两个人坐在漆黑的观众席中。他们手捧一桶爆米花，一把放到嘴里嚼着，全神贯注地看着眼前的场景。他们睁大眼睛的表情传达出热切的期待或着迷，仿佛他们完全沉浸在正在展开的戏剧或场景中。周围的环境表明人群拥挤，但焦点仍然集中在他们的反应上

上传两位的照片就够了，观众席可以用提示词写出来。

movie11

对于马斯克，AI 的发挥很稳定。但奥特曼看起来是地主家的傻儿子，吃相恐怖就不说了，眼睛大得要掉出来。

Pika 很有趣的一点是，素材可以「复用」。

所以，我们可以让马斯克和奥特曼过把模特瘾。只上传一张服装图片，然后通过提示词，让他们穿着一样的绿色大衣，拍个时尚大片。

test88

▲提示词：两名男子在壮丽的冬日风景中站在一起自拍。两人都穿着相同的绿色长外套。全身照，从头到脚展现他们。他们摆出专业模特般的姿势，脸上挂着自信的微笑。电影灯光突出了他们的脸庞和外套的奢华质感。高端时尚摄影风格，专业相机品质，时尚杂志美学

两人的照片都找了现成的，绿色的大衣和冰天雪地的背景是另外用 AI 生成的，衣服上的「AIGC」，算是考验 Pika 的附加题。

结果，场景和大衣的一致性保持得不错，「AIGC」的字样依稀可以辨认，两位模特的动作也遵循了提示词。

但最大的问题是，这两人是谁？视频的人脸和照片，不能说一模一样，可以说是毫不相干。

fashion11

不信邪，继续让 Pika 玩换装。

这次，我们请出扎克伯格，照例先用 AI 图片工具生成衣服，上面写着「I was human」（我曾是人类），呼应经典的机器人梗。

然后，再找一张扎克伯格的图片，和一把尤克里里的图片，让小扎玩个音乐。

test777

▲提示词：一位身穿黑色 T 恤的男子站在温馨的房间里，弹奏着尤克里里琴。镜头从中远景开始，展现他的整个身体，逐渐拉近，最后聚焦在 T 恤上的字迹上

Pika 对提示词的遵循和镜头的运动都挺好，衣服也丝滑地穿上了，但右手，尤其大拇指，还是不完美。

zuck66

相较 Google Veo、OpenAI Sora 等，Pika 的模型能力不算顶尖，一个问题解决了，还有更多的 bug 被发现。

尝试了写实的，再来试试二次元画风，为了让坂田银时和漩涡鸣人同框，我特意挑选了两张背景都是蓝天白云的图片。

test66

▲提示词：动漫风格的场景，镜头聚焦在两个年轻男子的脸上，背景是蔚蓝的天空和白云。他们一边聊天一边眼神交流，保留了原有的动漫艺术风格

背景融合得很自然，两位正面的表情发挥不错，吹动头发和衣服的风也恰到好处。然而，转身实在太可怕了。银时是死鱼眼，不是真的翻白眼啊喂。

an22

次元壁都打破了，当然也可以让名画跨年代互动——蒙娜丽莎和戴珍珠耳环的少女在麦当劳餐厅吃薯条。

test112

▲ 提示词：蒙娜丽莎和戴珍珠耳环的少女正在麦当劳餐厅用餐。她们相对而坐，桌上摆着薯条。她们边聊天边品尝薯条，摄像机从侧面捕捉她们，两位角色偶尔看向镜头，营造出一种随意而友好的氛围

效果一言难尽，看到蒙娜丽莎，不知道达芬奇想不想掀棺材板。两位好像贴图一样，被放在了视频里，头部也运动得非常诡异。

tou11

有时候，回归简单，道法自然，结果反而超出预期。

lian5

▲提示词：特写镜头，池塘表面出现气泡，然后咖啡杯从水中浮出

上传一张星巴克的图片，一幅莫奈的睡莲，就可以得到一个「清水出芙蓉」的咖啡杯。

lian5

PK 国产模型，控制 AI 视频的门槛更低了

一定程度上，Pika 提高了视频的可控性。话不说满，因为从实践看来，Pika 在场景、服装、物品上的一致性保持地较好，人物的脸容易崩，不管是什么次元。

同时，模型的基础能力，Pika 也有待进步，吃东西、弹琴等物体运动，仍然会出现问题。这些问题，能不能通过抽卡缓解呢？

三个字：抽不起。

Pika 2.0 目前仅对 Pro 和 Fancy 用户开放，如果按月订阅，每月至少花 35 美元，连免费试用的额度都没有。

而且，Pro 用户每月只有 2000 积分，但使用 Scene Ingredients 功能，一个视频就要花掉 100 积分。

vidu100

▲vidu 界面

其实，国产 AI 视频模型 Vidu，比 Pika 更早地实现了「多图参考」的功能。更拿捏用户的是，它有免费体验的积分。

Pika 的几个案例，我也在 Vidu 跑了一下。蒙娜丽莎和戴珍珠耳环的少女吃薯条，两位像刚出土，但蒙娜丽莎的还原度比 Pika 高。

vidu2

马斯克和奥特曼一起看电影，马斯克的脸像了七八成，奥特曼的脸依旧灾难。

vidu3

坂田银时和漩涡鸣人同框，Vidu 居然能基于正脸生成侧脸，但画风和原图不太一样。

vidu1

另外，在功能上，Vidu 有一点不如 Pika——最多只能上传三张图片。所以，让 Vidu 给马斯克和奥特曼拍时尚大片，我就没有上传背景，只上传了两位的照片和绿色的大衣。

两位给人的感觉很陌生。可以看出，人脸的稳定性，仍然是个难题。

vidu5

和 Pika 相比，Vidu 效果如何，可以见仁见智。Pika 用的是 Pro 版，Vidu 用的是免费版，客观上也会导致两者的差异。

但 Pika 和 Vidu 的思路是相似的——仅靠几个图片素材、一段简单的提示词，就生成相对稳定的物体。

在 AI 视频生成中，保持主体一致性，目前相对可靠的是 LoRA 方案，用一定数量的、特定主体的素材，对模型进行微调。通过适量的素材和训练，模型能逐渐掌握这个角色的样貌特征。

但为了让 AI 视频被更多人用起来，有更广阔的商业价值，门槛就要降低。至少，从 Vidu 和 Pika 身上，我们看到了可能性。

靠 AI 短视频出圈，在整活的道路上一去不复返

Pika 的 2.0 模型发了没几天，海外网友已经玩疯了。

拿自己的照片，反复生成不同场景的视频，就可以实现「瞬息全宇宙」。

man2

▲ 图片来自：X@EladRichardson

通过 AI 一键试衣，模特和衣服如流水，场景都不带换的，实拍的钱省下来了。

cloth1

▲ 图片来自：X@martgent

玩着玩着，Pika 给了我一种玩「QQ 秀」和模拟人生的感觉，怎么打扮视频里的角色，我们来决定。

如果让马斯克「圆梦」，很容易，先用其他 AI 工具，生成了一件「占领火星」的 T 恤、一个写着「MAGA」的红色帽子。

然后，把这些图片、火星的场景、马斯克的照片，以及他的擎天柱人形机器人、他特别喜欢的网红表情包 Doge 原型，全部上传到 Pika。

musk777

▲提示词：一名男子站在火星表面，身穿黑色T恤，头戴红色帽子。他的左边坐着一只狗，右边站着一个机器人。镜头以广角镜头开始，捕捉男子、狗、机器人的全身。随着镜头平稳拉近，男子朝镜头欢快地挥手，表情洋溢着喜悦和冒险精神

最终，一个阳光开朗大男孩出现，左牵黄，右擎苍，憨厚有余，但就是不像马斯克。

musk99

像不像是一回事，只要思路开阔，玩法无穷无尽。

基于我们自己和名人的照片，可以无痛追星。上传帽子、衣服、乐器，能把自己从头打扮到脚。集齐场景、产品、模特，一个 5 毛特效的广告片子就有了……

照片+AI 图片+Pika 2.0+提示词，可以生成很多好玩的画面。同时，这样的生成方式也规避了一些视频模型的短板，比如写字，在图片模型就可以解决。

不和 Google 硬刚模型能力，不和 Runway 这种逐梦好莱坞的对手比较，Pika 有自己的弯道超车玩法。

其实一直以来，Pika 在整活和创意方面就是一把好手，之前的一系列 AI 特效功能 Pikaffect 全网爆火，刷屏小红书和 TikTok，推动 Pika 用户突破 1100 万。

nie11

▲ AI 捏捏. 图片来自：Pika

dan1

▲AI 切蛋糕. 图片来自：Pika

Pika 切中了一群对整活短视频有高需求的用户，哪怕这些视频是模板化的，稍纵即逝的，但只要有趣，人们就会蜂拥而至。

谁说赢者通吃才是胜利？AI 的市场是广阔的，模拟物理世界固然是个远大的梦想，先完成让 AI 短视频有趣起来的小目标，未尝不是一种成功的方式。

https://feedx.site

苹果正在与英伟达合作，想让 AI 的响应速度更快

这个 AI 生图神器太好玩了，连提示词都不用写

极越公关负责人被开除/小红书大量封号，官方回应/坠崖车主感谢小米 SU7 保命

刚刚，OpenAI 重磅发布 o3！再次突破 AI 极限，北大校友参与研发

亚冬会成为吉利科技生态阅兵场，星纪魅族是 AI 的尖兵

爱范儿明日产品榜单 2024 评委阵容官宣，他们眼中的明日产品是什么 | 爱范儿

新疆美食圣地，两个字

苹果国行 AI 会选谁?字节、腾讯还是智谱/小米:特斯拉厂长没来我们这/微信上线「送礼物」功能

7类取暖电器全测评！“吃电大户”竟然是节能王？| 果壳科技有意思

为什么医学院的校徽上，多有一条蛇？

舒达智能床体验：怎么科学睡个好觉，这里有个答案

把华为全家桶升级成纯血鸿蒙后，我发现了它好用的秘密

近 22 万的苹果 Vision Pro 摄影机来了，可拍摄 8K 3D 视频

iPhone 17 Pro Max渲染图曝光/蔚来第三品牌萤火虫官宣,售价或低于10万/ChatGPT推出电话服务，老人机也能用 | 爱范儿

英伟达推出「最便宜」AI 超算，想让每个人都踏入 AI 世界

特斯拉在美新车被曝「重大问题」/保时捷否认中国区裁员 30% 及 N+6 赔偿/阿里巴巴亏 93 亿甩卖银泰

苹果折叠屏 iPad 曝光！超大尺寸还没折痕，我扒出了这些细节 | 爱范儿

广东省菜！冬天能忍住不吃它的都是狠人

英伟达，how are you？

吃过越南蜈蚣宴，有缘来生再相见

东北人有多爱吃茄子？直接生吃

迈凯伦又被卖了，这次出手的是蔚来第一大股东

国产大模型智谱获新一轮 30 亿元融资，2024 商业化收入增长超 100%

全球首位 AI 程序员正式上线，这个月薪只要三千的同事能干什么？ | 爱范儿

Google 推出 XR 版 Android，将首批登陆三星头显

查看全部

茉莉花论坛作为一个开放社区，允许您发表任何符合社区规定的文章和评论。

火遍小红书的 AI 视频神器，这次整出的新活又让我停不下来

马斯克和奥特曼看电影，名画吃薯条，同框从未如此简单

PK 国产模型，控制 AI 视频的门槛更低了

靠 AI 短视频出圈，在整活的道路上一去不复返

同类信息

茉莉花新闻网

联系我们

敬请期待

邮件订阅