色色五月我用豆包，生成了AI版《红楼梦》MV

发布日期：2024-09-30 21:28 点击次数：186

要论最近最火的AI 视频生成模子色色五月，无疑就属字节豆包了。也就是字节一语气亮出的PixelDance模子和Seaweed模子。而且各人都说效果好，那这不就得切身测试一波喽，而且是奏凯上难度的那种—— 最近抖音里许多东谈主都在效法林黛玉哽噎，咱们不妨用"全字节系的 AI "来制作一支《红楼梦》的 MV。然后啊，效果简直就是一个大写的万万没念念到！话未几说，奏凯展示恶果：岂论是生成的多东谈主物、画面的质地，致使是故事情节，豆包的视频不错说是十分有《红楼梦》那味儿了。而也正如刚才提到的

要论最近最火的AI 视频生成模子色色五月，无疑就属字节豆包了。

也就是字节一语气亮出的PixelDance模子和Seaweed模子。

而且各人都说效果好，那这不就得切身测试一波喽，而且是奏凯上难度的那种——

最近抖音里许多东谈主都在效法林黛玉哽噎，咱们不妨用"全字节系的 AI "来制作一支《红楼梦》的 MV。

然后啊，效果简直就是一个大写的万万没念念到！话未几说，奏凯展示恶果：

岂论是生成的多东谈主物、画面的质地，致使是故事情节，豆包的视频不错说是十分有《红楼梦》那味儿了。

而也正如刚才提到的，打造这支 MV 背后的 AI，全都都是字节系。

咫尺咱们就来一一拆解细节门径。

第一步，用豆包查询《红楼梦》中的经典片断原文，当作生成图片的Prompt。

举例王熙凤出场的名时局，豆包给出了这么的谜底：

第二步，咱们奏凯用《红楼梦》中的原文片断，"喂"给字节的即梦，让它先生成一幅画。

举例咱们领受的 Prompt 是：

红楼梦，只见一群媳妇丫鬟围拥着一个东谈主从后房门进来。这个东谈主打扮与众小姐不同，彩绣晴明，恍若神妃仙子：头上戴着金丝八宝攒珠髻，绾着向阳五凤挂珠钗；项上带着赤金盘螭璎珞圈；裙边系着豆绿宫绦，双衡比目玫瑰佩；身上穿戴缕金百蝶穿花大红洋缎窄裉袄，外罩五彩刻丝石青银鼠褂；下着翡翠撒花洋绉裙。一对丹凤三角眼，两弯柳叶吊梢眉，身量苗条，形体风流，粉面含春威不露，丹唇未启笑先闻。

整个生成的图片如下所示（左滑检察下一张图）：

第三步，将生成的图片丢给豆包 PixelDance 模子，再附上一句 Prompt，让它生成视频片断：

中间的女子舒怀大笑，本性慷慨地往前走，傍边世东谈主浅笑逐步折腰并为这个女子让开。

（虽然，也不错陆续用《红楼梦》的原文当作 Prompt。）

领受一样的范例，一一生成其它视频的片断。

再举例底下这个片断，Prompt 是这么的：

右边女生肃静哽噎，抬手捂住嘴。镜头切换，特写女生的脸，眼睛里留住眼泪。镜头切换，近景，左边东谈主物痴痴看向女生，眼光中尽是喜爱。

第四步，用基于豆包音乐模子的海绵音乐，生成 1 分钟的视频BGM，而且 Prompt 极其浅薄：

红楼梦，悲悼，大气。

一曲《梦断红楼殇》就降生了：

第五步，将最终的 6 个视频和 BGM 全都导入字节的剪映，对视频作念一个编著，就大事完了了！

不丢丑出，咫尺还是是东谈主东谈主都不错打造 MV 了，而且门径温范例也十分浅薄，只需联动一下字节系的 AI 们：

豆包（豆包谈话模子）、即梦（豆包文生图模子）、豆包视频生成模子 PixelDance、海绵音乐（豆包音乐模子）、剪映。

而在整个这个词流程中，视频生成，无疑是最为裂缝的门径。

但有一说一，AI 版《红楼梦》中的视频片断，还并莫得完全展现豆包 PixelDance 模子的全部实在实力。

视频生成，还是步入影视级

这次豆包在发布视频模子之际，把它的才调归结为了四个点：

精确的语义连气儿，多动作多主体交互

强劲动态和炫酷运镜并存

一致性多镜头生成

多作风多比例兼容

大约光看笔墨不可很直不雅地感受，接下来咱们就一一对这四个特质作念深远解读。

精确的语义连气儿，多动作多主体交互

如若纵览咫尺市面上的视频模子，其实大无数居品只可完成浅薄请示单一动作，而豆包 PixelDance 模子不错说是把 AI 关于 Prompt 的连气儿才调拉上一个高度。

不仅如斯，豆包 PixelDance 模子还能把故事延张开来（时序性多拍动作请示），以及哪怕参考图片中莫得的东谈主物，也不错通过谈话的状貌生成。

举例底下这段 Prompt：

小一又友笑着笑着就哭了，镜头缓缓拉远，他的母亲走过来安危他。

当先的图像仅有小一又友的脸，但生成的视频很好的高慢了 Prompt 中的整个条目。

再如：

特写一个中国女东谈主的面部。她有些不满地戴上了一副墨镜，一个中国男东谈主从画面右侧走进来抱住了她。

哥也色蝴蝶谷

由此可见，岂论 Prompt 多复杂，豆包 PixelDance 模子是不错 hold 住的。

强劲动态和炫酷运镜并存

复杂的动态和运镜，也一直是视频生成的难点之一。

这是因为实在的动态时常波及到对物理轨则的准确模拟，在复杂动态场景中，多个物体的相互作用会使物理模拟变得极为复杂。

关于东谈主物的动作，还需要模拟东谈主体的裂缝畅通和肌肉变形。

复杂的动态和运镜时时会带来光影的变化，而准确地假想光影效果是一项禁锢的任务。光芒的传播、反射、折射等表象都需要进行精确的模拟。

动态场景中的光源也可能是变化的，如太阳的位置随时候变化、灯光的精明等。这就需要及时假想光芒的强度、形式和见地，以确保画面的光影效果实在当然。

而这些各样的挑战到了豆包 PixelDance 模子这里，似乎就不再是难事。

举例鄙人面这个视频中，男人在冲浪的流程被生成的可谓是十分传神，就连浪花、光影、东谈主的动作、发丝等等，都与实际相配靠近：

再如底下这个快速穿越当然的场景，光影的交错、物理的轨则都拿持的相配精确，宛如科幻大片的片断：

一致性多镜头生成

一致性和多镜头，同样亦然此前 AI 视频生成被东谈主们诟病的少量，致使东谈主类都运行效法起了 AI 们的鬼畜。

举例正本上一个画面如故东谈主物 A，下一个画面就酿成了东谈主物 B，致使连性别和物种都有可能被删改……

那么豆包 PixelDance 模子真的认又是奈何呢？咱们奏凯来看效果：

第一个画面是小女孩濒临死神，镜头一排给到女孩的时候，豆包 PixelDance 模子生成的本体岂论是发型如故着装等细节，都保持了一致。

即使濒临愈加复杂的场景、镜头切换，亦然莫得问题：

多作风多比例兼容

虽然，作风的多变，是每个视频生成模子的"必修课"，豆包 PixelDance 模子亦然如斯。

举例曲直大片风：

再如日漫作风：

而且从这两个例子中，咱们也不难发现豆包 PixelDance 模子关于生成视频的比例亦然可控的。

更具体而言，豆包 PixelDance 模子守旧包括曲直，3D 动画、2D 动画、国画、水彩、水粉等多种作风；包含 1:1，3:4，4:3，16:9，9:16，21:9 六个比例。

嗯，是一个多变且较为万能的选手了。

那么接下来的一个问题是：奈何作念到的？

关于豆包视频模子的才调，在发布会上，针对刚才咱们所展示的前三项才调，永别对应的本事是这么的：

高效的 DiT 交融假想单位、全新假想的扩散模子磨砺范例，以及深度优化的 Transforemer 架构，等于"真金不怕火"出豆包 PixelDanca 模子背后的三大本事杀手锏了。

不外关于各个视频生成居品的效果，"什么样的才算好？是否有什么圭臬？"这一问题，在量子位与火山引擎总裁谭待交流流程中，他示意：

视频生成并不像语音生成一样，有相配圭臬且概述性的 Benchmark 等。但合座来看也有几点本体不错当作判断圭臬。

一是对复杂请示谨守，这就相配锻真金不怕火视频模子对语义的连气儿才调，从豆包 PixelDance 模子的效果来看，是合乎这少量条目的。

二是多镜头切换和保证一致性，这亦然保证视频最终效果的迫切成分。

而纵不雅整场豆包的发布会，视频模子也仅仅新发布的动作之一。

不惟有视频模子

除了豆包视频模子除外，这次字节还发布了 2 个重磅居品。

起原就是豆包音乐模子。

正如咱们给 AI《红楼梦》作念 BGM 时所演示的那般，生成歌曲，Prompt 只需浅薄的几个字就不错，只消裂缝字到位，那么歌曲的心理也能精确拿持。

除此除外，豆包音乐模子还提供了 10 余种不同的音乐作风和心理的抒发，东谈主声也简直与东谈主类无异。

其次就是豆包同声传译模子。

这个模子的效果不错说是失色东谈主类的同传了，不错边说边翻译，及时相通完全莫得禁锢；而且在翻译的准确性和东谈主声当然度方面亦然更进一竿，不错很好的期骗在多样需要同传的场景。

临了，豆包通用模子的才调，这次也获取了大幅的升迁：

至此，字节的豆包大模子家眷就变得愈加壮大了起来，不错一都来看下咫尺的全景图：

干系词，声势的强大如故仅仅一面，更迫切的是，豆包家眷的模子们是还是被粗鄙地使用了。

据了解，终局到 9 月，豆包大模子的日均 tokens 使用量还是跳跃 1.3 万亿，4 个月的时候里 tokens 合座增长跳跃了 10 倍。在多模态方面，豆包 · 文生图模子日均生成图片 5000 万张，此外，豆包咫尺日均科罚语音 85 万小时。

这组数据也从侧面响应出了模子的效果，毕竟唯有好用才能会被内行所继承；这也再次印证了豆包模子当先发布时所忽视的那句"唯有最大的使用量，才能打磨出最佳的大模子"。

也不错视为豆包"左手使用量，右手多场景"的状貌反复打磨后的一次正确的考据；而在考据事后，字节这次也亮出了他们在大模子上的发展之路，即先 To C，再 To B。

正如谭待所说：

唯有在 To C 上把效果作念到极致，咱们才会让模子在 To B 边界去上岗。

不仅如斯，跟着大模子价钱战的拉响，豆包模子的价钱亦然一降再降，由此也不错料念念大模子发展的一种趋势——

资本已不会拦阻改进之路。

那么关于豆包模子接下来的发展，是值得期待一波了。

One More Thing：

说到"全字节系 AI "，除了作念 AI 版《红楼梦》MV 的器用全是字节居品除外，这篇著述如故在飞书里写的。

临了，一句土味"情话" ending 本文：

字节大舞台，有 AI 你就来～

— 完 —

点这里� � 照管我，难忘标星哦～

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日再会 ~

<< 上一篇：勾引 av 比亚迪玄奘之路戈壁挑战！装备配皆了，扫数同业起来 | 下一篇：色色五月 2024年9月29日济南堤口果品批发发展有限连累公司价钱行情 >>

栏目分类

jav黑丝

要论最近最火的AI 视频生成模子色色五月，无疑就属字节豆包了。也就是字节一语气亮出的PixelDance模子和Seaweed模子。而且各人都说效果好，那这不就得切身测试一波喽，而且是奏凯上难度的那种—— 最近抖音里许多东谈主都在效法林黛玉哽噎，咱们不妨用"全字节系的 AI "来制作一支《红楼梦》的 MV。然后啊，效果简直就是一个大写的万万没念念到！话未几说，奏凯展示恶果：岂论是生成的多东谈主物、画面的质地，致使是故事情节，豆包的视频不错说是十分有《红楼梦》那味儿了。而也正如刚才提到的

友情链接：

Powered by jav黑丝 @2013-2022 RSS地图 HTML地图

色色五月 我用豆包，生成了AI版《红楼梦》MV

栏目分类

热点资讯

相关资讯

jav黑丝

色色五月我用豆包，生成了AI版《红楼梦》MV