首页 > 生活分享 > 免费教学 > 只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

只有谷歌受伤的世界达成了,但“全能模型”到底该不该跟?

发布时间:2024-05-19 22:00:56来源: 15210273549

最近AI领域备受瞩目的新闻中,OpenAI和谷歌的新品发布会,无疑占据了最多的头条。

我们团队当然也不例外,不仅第一时间观看了两家公司的发布会,还亲身上手体验了号称“颠覆世界”“世界又科幻了”的GPT-4o。

一句话总结:OpenAI发布会,失望;谷歌发布会,无聊。

并不是我们要故作惊人之语。实际上,AI业内专业人士普遍都有类似的看法。

一些国内从事AI工程化项目的人表示,“不关心,因为又用不到”。而AI科学家和专家也有不少人直言,“看着看着睡着了,谷歌几乎所有的东西都是对标和追赶,没有太多的新鲜感”。

又又又一次在与OpenAI的较量中处于下风,一个只有谷歌受伤的世界达成了。

尽管两大AI巨头的新技术方向,仍然值得关注,但可以明确的是,随着大型AI模型的产业化进程不断深入,国内外参与者也越来越冷静,更加专注于自身的AI策略与节奏。

有人将这两场发布会比作是一场斗地主游戏,OpenAI打出一对二,谷歌就跟四个王。那么,这一次较量的核心——多模态大模型,国内AI行业是否要跟进呢?如果要跟进,又该提前考量到哪些问题呢?

每一次新产品问世,如果只跟着新闻“震惊”是很难进步的。不妨和我们一起,认真给GPT-4o算笔账。

 

全能模型究竟“惊艳”在哪里?

谷歌反击OpenAI的发布会,被称为“腹泻式更新”,一口气推出了十来款新品及升级。之所以让人看到睡着,是因为大家已经在前一天被GPT-4o“惊艳”过了。

而这次谷歌开发者大会上所演示的其他产品,OpenAI早都发布过。对标GPT-4o的Gemini Astra,表现又略逊一筹,也难怪大家兴趣缺缺。显然,这是一次针对谷歌的精准狙击。此前,谷歌已经对外放出了语音助手demo演示的预热视频,而GPT-4o最让人惊艳的地方就是“天花板级别”的人机自然语音交互。

那么,OpenAI机关算尽、谷歌有备而来的多模态大模型,究竟有什么神奇之处?

GPT-4o中的“o”代表“omni”,意为“全能”,以此为版本号,凸显了GPT-4o的多功能特性,可以从三个方面理解:

1.多模态。

GPT-4o接受文本、音频和图像的任意组合作为输入,实时对音频、视觉和文本进行推理,生成相应的输出。相比ChatGPT的文生文、文生图,Sora的文生视频等,GPT-4o是一个原生多模态的融合体。这一点,谷歌的Gemini Astra也能实现,支持多模态的推理。在演示视频中,谷歌的智能助手可以理解手机摄像头拍摄的世界(视频、图像),并用文字详细地讲述出来。

当然,多模态大模型并不是什么新鲜事物。不只这俩AI巨头,国内在多模态大模型领域也有一些研究和开发。此前就有浙大校友开源了多模态大模型LLaVA,对标OpenAI的GPT-4V。既然多模态大模型并不稀奇,那GPT-4o凭啥“惊艳”?答案就在第二点。

2.低时延。

GPT-4o是一个端到端、全链路贯穿的多模态大模型。

此前,语音产品一般由三个独立模型组成:SLM1将音频转录为文本——LLM将文本输出为文本——SLM2将生成文本转换为音频。每一步的网络延迟叠加起来,结果就是AI推理速度跟不上人嘴巴说话的速度。大家可能都有过类似的经历,自己都说完了,AI大模型还没识别完全,互动总被打断,有时还会丢失很多信息,连基本的文字都听不清,更别说从笑声、停顿、叹气等因素中分析出人的情绪了,人当然也就没有了说下去的兴致。

而GPT-4o的端到端,就是省去了中间的处理步骤,由同一个神经网络来接受并处理来自不同模态(如文本、视觉和音频)的输入数据,并直接输出结果。这样就可以将语音交互的响应时延,控制在232 毫秒以内,体感上比人类回应还要迅速。

OpenAI演示完GPT-4o,大家纷纷表示,科幻电影中《Her》跟机器谈情说爱的未来就要实现了。不过,谷歌并不这样想。

(截图自奥特曼的社交媒体)

在晚一天的谷歌发布会上,谷歌Gemini 1.5 Flash的响应其实也很快速,同样能几乎没有延迟地跟人类流畅互动,但还是比GPT-4o要长一些。不过谷歌声称,自己的两段演示视频均为“单次拍摄、实时录制完成”。

我们猜测,这是在暗示OpenAI又在“贷款领先”了,GPT-4o实际可能无法很快真的落地,毕竟OpenAI搞误导性营销是有前科的,Sora就曾爆出,拿艺术家编辑过的视频当原视频宣传,演示效果并非完全由AI生成。

展示效果是真是假,有待时间验证,不过OpenAI和谷歌在端到端方面的工作,证明了人机语音交互的超低时延是可以实现的,达到媲美人类交流的水平。而这,就为语音交互的多场景应用,打下了新的技术根基。

3.多场景。

大家应该都还记得,ChatGPT问世时举世震惊的效果。大语言模型的强大理解能力和泛化性,可以促成NLP在多种文本任务上带来颠覆式的影响,而这类任务几乎遍布在各行各业。

再看GPT-4o,多模态大模型在音视频理解方面尤其出色,也是一个非常泛在的通用型技术。而毫不夸张地说,GPT-4o将语音交互体验做到了“天花板级别”,这几乎可以给语音场景都带来改变。

比如OpenAI所展示的辅导孩子数学题,可以替代家长辅导作业,让家家都过上和谐的日子;《Her》电影中跟智能语音机器人谈恋爱的场景,可以让人人都拥有自己的网络恋爱/在线情感抚慰师。延展开来,此前曾被嘲笑“人工智障”的手机语音助手,银行、电信等行业的客服机器人,缺乏充足师资力量的偏远学校,游戏里跟玩家互动的NPC纸片人,以及能识别用户情绪的精准营销……

凡有人声处,皆可咏AI,正随着端到端多模态大模型的进化与落地,让更自然、更逼真、富有感情的人机交互成为可能。

从这个角度说,GPT-4o所代表的技术前瞻性,确实配得上“全能o”这个词。既然如此,为什么说只有谷歌一家受伤了呢?

免费教学更多>>

华为 Pura 80 系列手机影像新预热视频发布:无惧过亮或过暗 华为Pura80视频能力升级,感光性能显著提升 OPPO A3 5G手机限时特惠! 倍思iPhone钢化膜促销:买一送一仅46.7元 苹果iPhone 16 Pro Max 5G手机天猫仅需7428元 荣耀Magic8系列三款新机曝光,搭载潜望长焦与双处理器 时尚中国 荣耀东方——首届中国时尚产业盛典将于6月12日亮相上海 中国火星发电储能获新进展 网友:以后去火星不担心手机充电了 索尼PS5低功耗模式曝光,或为掌机铺路 温联索尼A7M4双C口高速相机线直降18元 小米15 Pro 5G手机16GB+512GB白 骁龙8至尊版到手价2236元 小米 YU7 展车陆续到店,含北上广深、杭州、成都、长沙、合肥等 小米 SU7 Ultra 汽车将登陆游戏《GT赛车7》 远超SU7!小米YU7充电速度公布:最大充电倍率5.2C 15分钟最长补能里程620km iQOO这款新机硬件很能打,适合电竞游戏玩家 消息称华为一镜双焦段的切换是不连续的,变焦过程有软件衔接 OPPO Reno14 Pro 5G智能手机海芋紫限时特惠 消息称三星与英飞凌及恩智浦达成合作,共同研发下一代汽车芯片解决方案 三星Galaxy S25 Ultra 5G手机12GB+512GB钛银蓝3950元 华硕ROG幻16 Air 2025款发布:Ultra 9-285H+RTX 5070,售价16999元 高效稳定 联想TS90X服务器助力企业基础架构升级 海外用户抱怨索尼 Xperia 1 VII 手机预售订单随机砍单,致赠品 XM5 耳机无法获得 耐尔金红米K70手机壳超薄磁吸全包防摔磨砂保护套 魅族 22 系列手机入网:有望搭载骁龙 8 至尊版、下月发布 靠流量卖爆不存在的!小米SU7交付超25万台 雷军:强大产品力是高销量基础 小米15 Pro 5G手机16GB+512GB白 骁龙8至尊版到手价2236元 奥迪x华为乾崑智驾!豪华电动3.0时代开启 ‏华为MateBook Fold非凡大师开售:新系统和新形态定义智慧PC 华为张平安:机器人“大脑”可在云端操控 东风猛士M817亮相大湾区车展,搭载华为乾崑ADS 4智能驾驶系统