AI大模型动态和趋势
发布时间:2023-12-21

一、模型多模态化

1、谷歌发布Gemini 大模型

12 月 6 日,谷歌宣布推出模型 Gemini,其中Gemini Ultra 版本在32个性能基准测试中的30个中,超越了现有最先进的GPT-4。Gemini是一开始就使用多模态数据(包括文字、音频、图片、视频、PDF 文件等)训练的大模型,其中视频数据训练是通过将视频编码为一系列帧序列,视频帧(图像)可以与文本或音频实现混合训练。Gemini 大模型最核心亮点在于对视频多模态的理解能力,拥有视频数据与应用卡位的企业或有重估机遇;另外,视频分析行业目前在数据处理规模、速度和深度等方面存在亟待解决的问题,原生多模态大模型有望解决行业痛点,打开行业天花板。

多模态大模型对算力部署、算法改进、硬件升级提出了新的挑战和新的机遇,Gemini 并没有依赖英伟达芯片算力,而是由Google 自研的TPU v4 和 TPU v5e。最新一代 TPU V5p 单芯片算力达到 459TFLOPs(Bf16),最高支持 8960 片 TPU 组合超级节点并带来高达 4800Gb/s 的片间互联速度。

2、2024是生成视频之年

当前AI 生文、生图应用层出不穷,而AI生成视频领域仍处于相对早期发展阶段,尽管有一些初步尝试和突破,但难以与其他AI生成内容相媲美,它们仍然存在许多问题,抖动、闪现,以及频繁出现的画面跳变,这种“鬼畜”现象很难保证稳定的生成效果。

11月28日,Pika 文生视频 AI 应用的出现,给 AI 生成式视频添了一把旺火,再次燃起了人们对 AI 文生视频赛道的关注。Pika 1.0 支持 3 种方式生成视频:文生视频、图生视频、视频转视频,感觉完全重新做了一个模型,最擅长 2D、3D 动画。

12月12日,李飞飞团队与谷歌合作,推出了AI视频生成模型W.A.L.T(窗口注意力潜在Transformer ,Window Attention Latent Transformer),可以通过自然语言提示生成3秒长的每秒8帧、分辨率达512×896的逼真视频;可以让一张静图变为生动活泼的动图;还能生成3D摄像机运动的视觉效果。英伟达高级科学家 Jim Fan 评论:2022 年是影像之年,2023是声波之年,而2024 将是视频之年!

二、AI终端重构

AI发展正从软件主导转向硬件+软件并行驱动,而智能设备作为AI触达用户的终极载体,正成为AI未来发展与落地的重要突破口。大模型重构有望从 AI PC 开始共振,逐步延伸至汽车、手机与机器人等各类终端,2024或将迎来全面一轮的 AI 终端硬件创新潮,端侧AI大幕已然拉开。

1AI穿戴设备

AI穿戴设备受交互方式、承载信息量等限制,还需探索更多应用场景,但其为AI终端的发展提供了一些参考。11月10日,OpenAI、微软等巨头投资的Humane公司发布了智能穿戴设备AI Pin。AI Pin是一款可吸附在衣服上的无屏穿戴设备,内置OpenAI的GPT大模型,可通过语音、触摸板、激光投影和手势进行交互。AI Pin可执行撰写文稿、整理电邮、实时翻译、识别食物并提供营养信息等任务,还支持Tidal音乐流。Humane计划未来为AI Pin增加导航和购物功能,并提供开发工具。

2AI手机

智能手机渗透率接近天花板,且产品整体缺乏足够的创新,手机出货开始呈现周期性特征。AI手机将AI模型/应用与手机结合,为手机产业带来创新变革,或带来智能手机行业新一轮的创新周期。目前已上市的AI手机Vivo X100和Google Pixel 8均搭载了几十亿参数级别的轻量化AI模型,相关的AI应用主要集中在AI助手、文字生成、语音/图像/视频处理等方面。

3AI PC

经过30多年的发展,PC形式经历了桌面PC-笔电-平板电脑的变化,渗透率已接近天花板,整体上PC产业缺乏足够的创新,人们对传统PC的需求更多来自于自然的换机周期。作为生产力工具,PC与AI大模型的结合为PC产业带来硬件架构设计、交互方式、数字内容、应用生态等方面的变革,有望大幅提升用户办公、设计、内容创作等方面的效率。

4AI XR

XR设备可承载海量的信息流和深度的内容数据,其独特的优势使它能成为个人空间的延伸。计算机视觉、自然语言交互、深度学习等先进AI技术能使XR设备提供逼真的沉浸感、交互性和无缝的MR体验。内容方面,XR产业通过GPT等生成式AI的编码能力和虚拟世界中模型/环境/角色的自创能力,帮助企业持续提升生产力。AI与XR的融合或创造全新的生态,推动数字体验的发展,并将其扩展到制造业、虚拟生产、电子商务、教育等行业。

如,苹果的Vision Pro开启了空间计算时代,带来了全新的3D交互方式。生成式AI赋能空间计算将大幅推动产业的技术革新并提升用户体验。AI构建的底层框架,与空间计算的结合,有望创造出更宏伟的元宇宙上层建筑。

5AI座舱

汽车智能座舱可承载海量信息和各类内容数据,同时考虑到驾驶过程中信息接收和操作的便利性,智能汽车有望成为手机/PC应用场景的延伸,成为新的生活空间。AI与智能座舱的结合让交互更加拟人化,在大模型的赋能下,语音助手可实现更加类人的交流;基于对娱乐、办公、社交等不同的需求,座舱可提供个性化的服务。此外,座舱与智驾的融合或是未来一大趋势,AI在其中将发挥更大的作用。

三、算力国产化

AI 大模型预训练数据量呈指数级增长,带动算力需求爆发(训练阶段算力需求=6×模型参数数量×训练集规模)。算力已成为推动数字经济飞速发展的新引擎,人工智能进入算力新时代,全球算力规模呈现高速增长态势。美国对高端 GPU 供应限制不断趋严,国产 AI 算力芯片厂商迎来黄金发展期,海光 DCU、寒武纪思元系列、华为昇腾系列、壁仞科技GPGPU等有望加速实现国产替代。