七月的上海热情如火,比它更热的,是在上海举行的世界人工智能大会。作为全球范围的行业盛事,今年的世界人工智能大会更是具有鲜明的特点:当往届的人工智能技术较为分散地体现在AR/VR、大数据、云计算等领域时,今年的世界人工智能大会几乎所有的参展企业都将人工智能聚焦在了大模型这个赛道上,当人工智能大模型赛道如此拥挤,人工智能未来又将向哪里“智能”呢?南方产业观将通过在本届世界人工智能大会上的所见所闻,试图找出答案。
从人工智能大模型与大众初次见面开始,简单的文字对答很快就不能满足大众对“智能”的渴望了,很快,随着人工智能大模型的快速迭代,文生图,文生视频和图生视频等多种AIGC方式的出现,让人工智能大模型和大众有了更亲密的接触,而在2024世界人工智能大会上,不仅有更多的玩家加入到了人工智能大模型在视频领域的应用当中,而借助人工智能大模型而诞生的各种更加低门槛的视频工具,也让视频化从专业走向了普及。
在2024世界人工智能大会期间,快手大模型首次集体亮相,视频生成大模型可灵、图像生成大模型可图等产品的多项新功能正式发布。其中可灵AI基础模型再度升级,推出更加清晰的高画质版,以及首尾帧控制、镜头控制等全新编辑能力,同时,创作者单次生成的文生视频时长增加至10s,是业内对用户开放使用可实现的最长时长。
而另一家在世界人工智能大会这么“刚”的大会上打造了一个PINK颜色展位的哔哩哔哩(以下简称“B站”),同样将其在人工智能领域的看家本领进行了展示。其中哔哩哔哩鸣实验室为世界首位中文虚拟歌手洛天依就量身定制了AI语音声库,通过精妙的算法调校,不仅保留了洛天依声音的标志性特质,还赋予了其更自然流畅和真实的表达能力,使其能够轻松应对各种曲风和语言。在洛天依展区《歌行四方》的现场表演中,洛天依也呈现了堪比专业歌手级别的演唱,不少观众为此驻足,感受技术与艺术的完美融合。
此外,必剪Studio作为B自研的音视频大模型,能为UP主提供免费生成1:1的真人模型定制服务,通过输入文本或录音,即可生成实拍级效果的出镜口播视频。无论是直播互动、短视频制作,还是虚拟偶像创造,都能帮助大大缩短创作周期,降低创作难度,让更多创意得以快速实现。而在动漫领域,B站自研的AI动态漫技术,则能够通过图文引导和动态控制,实现对角色五官、肢体动作、运镜特效的生成与控制,构建完整的动漫场景,真正实现让漫画“动” 起来,大幅降低了内容制作的成本和门槛。
从各式各样针对视频领域的人工智能大模型和基于大模型诞生的视频工具可以看出,如今无论是拿着一段文字、还是一张照片甚至是一幅漫画,都能够通过人工智能大模型“变成”动态的视频,虽然目前的效果还较为参差不齐,但是人工智能大模型在视频领域的应用,可以说和像安全和教育之类的领域相比,可谓是大步流星遥遥领先。
其实相对而言,人工智能大模型带来的视频,不是未来,而是现在。