色色五月 我用豆包,生成了AI版《红楼梦》MV
发布日期:2024-09-30 21:28 点击次数:181要论最近最火的AI 视频生成模子色色五月,无疑就属字节豆包了。
也就是字节一语气亮出的PixelDance模子和Seaweed模子。
而且各人都说效果好,那这不就得切身测试一波喽,而且是奏凯上难度的那种——
最近抖音里许多东谈主都在效法林黛玉哽噎,咱们不妨用"全字节系的 AI "来制作一支《红楼梦》的 MV。
然后啊,效果简直就是一个大写的万万没念念到!话未几说,奏凯展示恶果:
岂论是生成的多东谈主物、画面的质地,致使是故事情节,豆包的视频不错说是十分有《红楼梦》那味儿了。
而也正如刚才提到的,打造这支 MV 背后的 AI,全都都是字节系。
咫尺咱们就来一一拆解细节门径。
第一步,用豆包查询《红楼梦》中的经典片断原文,当作生成图片的Prompt。
举例王熙凤出场的名时局,豆包给出了这么的谜底:
第二步,咱们奏凯用《红楼梦》中的原文片断,"喂"给字节的即梦,让它先生成一幅画。
举例咱们领受的 Prompt 是:
红楼梦,只见一群媳妇丫鬟围拥着一个东谈主从后房门进来。这个东谈主打扮与众小姐不同,彩绣晴明,恍若神妃仙子:头上戴着金丝八宝攒珠髻,绾着向阳五凤挂珠钗;项上带着赤金盘螭璎珞圈;裙边系着豆绿宫绦,双衡比目玫瑰佩;身上穿戴缕金百蝶穿花大红洋缎窄裉袄,外罩五彩刻丝石青银鼠褂;下着翡翠撒花洋绉裙。一对丹凤三角眼,两弯柳叶吊梢眉,身量苗条,形体风流,粉面含春威不露,丹唇未启笑先闻。
整个生成的图片如下所示(左滑检察下一张图):
第三步,将生成的图片丢给豆包 PixelDance 模子,再附上一句 Prompt,让它生成视频片断:
中间的女子舒怀大笑,本性慷慨地往前走,傍边世东谈主浅笑逐步折腰并为这个女子让开。
(虽然,也不错陆续用《红楼梦》的原文当作 Prompt。)
领受一样的范例,一一生成其它视频的片断。
再举例底下这个片断,Prompt 是这么的:
右边女生肃静哽噎,抬手捂住嘴。镜头切换,特写女生的脸,眼睛里留住眼泪。镜头切换,近景,左边东谈主物痴痴看向女生,眼光中尽是喜爱。
第四步,用基于豆包音乐模子的海绵音乐,生成 1 分钟的视频BGM,而且 Prompt 极其浅薄:
红楼梦,悲悼,大气。
一曲《梦断红楼殇》就降生了:
第五步,将最终的 6 个视频和 BGM 全都导入字节的剪映,对视频作念一个编著,就大事完了了!
不丢丑出,咫尺还是是东谈主东谈主都不错打造 MV 了,而且门径温范例也十分浅薄,只需联动一下字节系的 AI 们:
豆包(豆包谈话模子)、即梦(豆包文生图模子)、豆包视频生成模子 PixelDance、海绵音乐(豆包音乐模子)、剪映。
而在整个这个词流程中,视频生成,无疑是最为裂缝的门径。
但有一说一,AI 版《红楼梦》中的视频片断,还并莫得完全展现豆包 PixelDance 模子的全部实在实力。
视频生成,还是步入影视级
这次豆包在发布视频模子之际,把它的才调归结为了四个点:
精确的语义连气儿,多动作多主体交互
强劲动态和炫酷运镜并存
一致性多镜头生成
多作风多比例兼容
大约光看笔墨不可很直不雅地感受,接下来咱们就一一对这四个特质作念深远解读。
精确的语义连气儿,多动作多主体交互
如若纵览咫尺市面上的视频模子,其实大无数居品只可完成浅薄请示单一动作,而豆包 PixelDance 模子不错说是把 AI 关于 Prompt 的连气儿才调拉上一个高度。
不仅如斯,豆包 PixelDance 模子还能把故事延张开来(时序性多拍动作请示),以及哪怕参考图片中莫得的东谈主物,也不错通过谈话的状貌生成。
举例底下这段 Prompt:
小一又友笑着笑着就哭了,镜头缓缓拉远,他的母亲走过来安危他。
当先的图像仅有小一又友的脸,但生成的视频很好的高慢了 Prompt 中的整个条目。
再如:
特写一个中国女东谈主的面部。她有些不满地戴上了一副墨镜,一个中国男东谈主从画面右侧走进来抱住了她。
哥也色蝴蝶谷由此可见,岂论 Prompt 多复杂,豆包 PixelDance 模子是不错 hold 住的。
强劲动态和炫酷运镜并存
复杂的动态和运镜,也一直是视频生成的难点之一。
这是因为实在的动态时常波及到对物理轨则的准确模拟,在复杂动态场景中,多个物体的相互作用会使物理模拟变得极为复杂。
关于东谈主物的动作,还需要模拟东谈主体的裂缝畅通和肌肉变形。
复杂的动态和运镜时时会带来光影的变化,而准确地假想光影效果是一项禁锢的任务。光芒的传播、反射、折射等表象都需要进行精确的模拟。
动态场景中的光源也可能是变化的,如太阳的位置随时候变化、灯光的精明等。这就需要及时假想光芒的强度、形式和见地,以确保画面的光影效果实在当然。
而这些各样的挑战到了豆包 PixelDance 模子这里,似乎就不再是难事。
举例鄙人面这个视频中,男人在冲浪的流程被生成的可谓是十分传神,就连浪花、光影、东谈主的动作、发丝等等,都与实际相配靠近:
再如底下这个快速穿越当然的场景,光影的交错、物理的轨则都拿持的相配精确,宛如科幻大片的片断:
一致性多镜头生成
一致性和多镜头,同样亦然此前 AI 视频生成被东谈主们诟病的少量,致使东谈主类都运行效法起了 AI 们的鬼畜。
举例正本上一个画面如故东谈主物 A,下一个画面就酿成了东谈主物 B,致使连性别和物种都有可能被删改……
那么豆包 PixelDance 模子真的认又是奈何呢?咱们奏凯来看效果:
第一个画面是小女孩濒临死神,镜头一排给到女孩的时候,豆包 PixelDance 模子生成的本体岂论是发型如故着装等细节,都保持了一致。
即使濒临愈加复杂的场景、镜头切换,亦然莫得问题:
多作风多比例兼容
虽然,作风的多变,是每个视频生成模子的"必修课",豆包 PixelDance 模子亦然如斯。
举例曲直大片风:
再如日漫作风:
而且从这两个例子中,咱们也不难发现豆包 PixelDance 模子关于生成视频的比例亦然可控的。
更具体而言,豆包 PixelDance 模子守旧包括曲直,3D 动画、2D 动画、国画、水彩、水粉等多种作风;包含 1:1,3:4,4:3,16:9,9:16,21:9 六个比例。
嗯,是一个多变且较为万能的选手了。
那么接下来的一个问题是:奈何作念到的?
关于豆包视频模子的才调,在发布会上,针对刚才咱们所展示的前三项才调,永别对应的本事是这么的:
高效的 DiT 交融假想单位、全新假想的扩散模子磨砺范例,以及深度优化的 Transforemer 架构,等于"真金不怕火"出豆包 PixelDanca 模子背后的三大本事杀手锏了。
不外关于各个视频生成居品的效果,"什么样的才算好?是否有什么圭臬?"这一问题,在量子位与火山引擎总裁谭待交流流程中,他示意:
视频生成并不像语音生成一样,有相配圭臬且概述性的 Benchmark 等。但合座来看也有几点本体不错当作判断圭臬。
一是对复杂请示谨守,这就相配锻真金不怕火视频模子对语义的连气儿才调,从豆包 PixelDance 模子的效果来看,是合乎这少量条目的。
二是多镜头切换和保证一致性,这亦然保证视频最终效果的迫切成分。
而纵不雅整场豆包的发布会,视频模子也仅仅新发布的动作之一。
不惟有视频模子
除了豆包视频模子除外,这次字节还发布了 2 个重磅居品。
起原就是豆包音乐模子。
正如咱们给 AI《红楼梦》作念 BGM 时所演示的那般,生成歌曲,Prompt 只需浅薄的几个字就不错,只消裂缝字到位,那么歌曲的心理也能精确拿持。
除此除外,豆包音乐模子还提供了 10 余种不同的音乐作风和心理的抒发,东谈主声也简直与东谈主类无异。
其次就是豆包同声传译模子。
这个模子的效果不错说是失色东谈主类的同传了,不错边说边翻译,及时相通完全莫得禁锢;而且在翻译的准确性和东谈主声当然度方面亦然更进一竿,不错很好的期骗在多样需要同传的场景。
临了,豆包通用模子的才调,这次也获取了大幅的升迁:
至此,字节的豆包大模子家眷就变得愈加壮大了起来,不错一都来看下咫尺的全景图:
干系词,声势的强大如故仅仅一面,更迫切的是,豆包家眷的模子们是还是被粗鄙地使用了。
据了解,终局到 9 月,豆包大模子的日均 tokens 使用量还是跳跃 1.3 万亿,4 个月的时候里 tokens 合座增长跳跃了 10 倍。在多模态方面,豆包 · 文生图模子日均生成图片 5000 万张,此外,豆包咫尺日均科罚语音 85 万小时。
这组数据也从侧面响应出了模子的效果,毕竟唯有好用才能会被内行所继承;这也再次印证了豆包模子当先发布时所忽视的那句"唯有最大的使用量,才能打磨出最佳的大模子"。
也不错视为豆包"左手使用量,右手多场景"的状貌反复打磨后的一次正确的考据;而在考据事后,字节这次也亮出了他们在大模子上的发展之路,即先 To C,再 To B。
正如谭待所说:
唯有在 To C 上把效果作念到极致,咱们才会让模子在 To B 边界去上岗。
不仅如斯,跟着大模子价钱战的拉响,豆包模子的价钱亦然一降再降,由此也不错料念念大模子发展的一种趋势——
资本已不会拦阻改进之路。
那么关于豆包模子接下来的发展,是值得期待一波了。
One More Thing:
说到"全字节系 AI ",除了作念 AI 版《红楼梦》MV 的器用全是字节居品除外,这篇著述如故在飞书里写的。
临了,一句土味"情话" ending 本文:
字节大舞台,有 AI 你就来~
— 完 —
点这里� � 照管我,难忘标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日再会 ~
栏目分类