谷歌版“GPT-4”王炸更新！画图、看懂X光片，5分钟写一首歌...“史上最丑”折叠机一起发

2023-05-12 10:06:02 来源：极果

谷歌放大招了，要一雪不如微软的“前耻”！

(资料图)

今日凌晨，谷歌I/O开发者大会如期举行。这是谷歌一年当中最盛大的展会，本次谷歌带来了自家AI语言模型PaLM 2，谷歌Pixel Fold折叠屏、谷歌Pixel 7a手机，同时发布了Android 14操作系统等...可谓精彩纷呈。

与去年一股脑发布数款硬件新品不同，今年I/O开发者大会主要针对一系列有关AI方面的更新，甚至绝大部分的时间都在反复不停讲AI。其中最引人注目的，便是谷歌AI语言模型PaLM 2。

这是谷歌去年4月发布的PaLM语言模型的升级版本，它支持超过100种语言，能够处理各种编码、数学和创造性写作任务，旨在挑战ChatGPT开发公司OpenAI的GPT-4。

同时谷歌还在聊天机器人Bard上玩活，其不仅能回复图片，还能看懂图片~比如把一只狗的照片发给它，让它自动识别狗的品种，并写下与狗有关的标题和内容，相当聪明了。

往年一样，谷歌还介绍了全新硬件产品，并公布安卓系统的最新设计调整。只可惜，最令人期待的Pixel Fold折叠机，竟然凭借大黑边成为网友第一个“挥刀”的对象，甚至有人吐槽这是“史上最丑折叠屏”。

只能说硬件并非谷歌发力的重点，谷歌眼下当务之急还是AI这条路。自从ChatGPT爆火后，谷歌一夜之间从机器学习领域的引领者沦为追随者，虽然搞了个对标ChatGPT的Bard，但也没能在市场掀起水花。面对微软的步步紧逼，谷歌必须拿出更能打的产品。一年一度的I/O开发者大会，可以说是最好的机会，看来，谷歌是真急了！

谷歌CEO皮查伊在发布会现场表示，此次谷歌发布的PaLM 2是目前最先进的语言模型，也是其PaLM语言模型的第二个版本。相比PaLM 1，新版本具有升级的多语言、推理和编码能力。

在多语言能力方面，PaLM2在一个涵盖100多种语言的语料库上训练，相较此前模型提高了其理解、生成和翻译细微差异化文本的能力，甚至拥有解决成语、诗歌和谜语这类门槛较高的文本理解能力。

由于PaLM 2还在包含科学论文和数学表达式的网页上进行了训练，因此还擅长在逻辑、常识推理和数学方面的推理分析。

编程方面，PaLM 2还改进了逻辑推理以及对编写和调试代码的支持，现在支持20种编程语言，如Python、Java等常用编程语言，以及Prolog、Fortran和Verilog等小众语言的编程。

根据基准测试，对于具有思维链prompt（提示）或自洽性的MATH、GSM8K和MGSM基准评估，PaLM 2的部分结果超越了GPT-4。

目前，PaLM2模型有4种不同大小的尺寸，分别为Gecko、Otter、Bison和Unicorn。

具体如下：

Gecko：最小尺寸，可以在移动设备上运行，速度足够快，即使离线状态也可进行交互应用。

Otter：中等大小模型，适合各种任务，包括自然语言处理、机器翻译和代码生成。

Bison：更大的模型，可以处理更复杂任务，例如生成逼真的图像和视频。

Unicorn：最大尺寸，可处理最复杂的任务，比如编写创意文本，如诗歌、代码、脚本、音乐作品、电子邮件、信件等。

其中最小的Gecko可以在移动设备上工作，说人话就是，在手机也能运行交互式应用程序，同时速度非常之快，每秒可处理20个token，不联网也能在设备上运行。这一点直接反超GPT-4啊！

不同尺寸模型带来的功能性意味着PaLM 2可以进行微调，以多种方式支持整类产品。

仅能做常规的文字理解和生成还不够，为了展示PaLM 2的多模态能力，谷歌还推出了两个专业领域大模型——Med-PaLM 2和Sec-PaLM 2，前者涉及医疗，后者用于维护网络安全。

Med-PaLM 2能回答各种医学问题，是首个在美国医疗执照考试中达到专家水平的大语言模型。目前谷歌正在尝试让它具备多模态能力，比如检查X光片然后给出诊断。在今年夏天晚些时候，这个模型将对一小部分谷歌云用户开放。

皮查伊指出，虽然PaLM 2的能力已经很强，但只有在对特定领域的知识进行微调时，才能真正发挥作用。与基础模型相比，微调帮助Med-PaLM 2实现了将近十倍的精确度，从而在医学问题回答上能做到接近临床专家的表现。

至于Sec-PaLM 2，它使用人工智能来帮助分析和解释潜在恶意脚本的行为，并在非常短的时间内检测哪些脚本实际上对个人和组织构成威胁。

除了PaLM 2，谷歌CEO桑德尔·皮查伊还稍微剧透了下一代大模型Gemini的消息。该模型今年才开始研发，是一种多模态和高效的机器学习工具，将具有像GPT-4一样的万亿参数。他表示，目前Gemini仍在训练中，但已展示出了以往模型中从未见过的多模态能力。

从PaLM2到Gemini，可见谷歌有针对性打击GPT-4痛点，用多模态能力直击靶心，又以专用领域模型拉开差距。只不过极果君还是想吐槽，这PaLM2和Bard都还没搞明白，谷歌就开始画下一个饼，是不是有点太早了？

相比之下，PaLM 2模型应用趋于成熟，谷歌已将PaLM 2模型用于聊天机器人Bard上，增强其作答能力。谷歌表示Bard未来也能像ChatGPT一样，接入网络，实时搜索网页。

这次Bard有诸多升级，例如AI可以自动根据你输入的文本生成图像。不再只有一个只会干巴巴回复文字的机器人，还能用图片的形式为我们展示更丰富直观的答案。

谷歌展示了一个案例。假如用户问Bard，美国新奥尔良有哪些必看的景点，而就能图文并茂地解答这个问题，就像用户自己在操作谷歌搜图一样。比起干巴巴回复文字，这样的解答显然更生动有趣。

更让人惊喜的是，Bard还能看懂图片，并根据图片信息起草相关内容。这一点，文章开头就提到过了。

而想要使用Bard也很简单，谷歌移除了等待名单流程，现在在180多个国家和地区可以使用了，更多地区也将很快加入。

不仅如此，谷歌还推出了Bard的日语和韩语版本，并计划很快支持全球前40种语言。

虽然Bard在发布会上玩得很溜，但实际表现还有待市场考验。毕竟此前Bard在一场发布会上对用户提出的问题给出错误回答，而导致谷歌股价跌超7%，市值蒸发近7000亿这件事，至今很多人还历历在目。由此也能看出，谷歌要追赶微软和OpenAI还有很长的路要走。

目前已知的是，谷歌Bard以及超过25个AI产品和功能，都由PaLM 2作为底层技术支持。具体的表现之一是Duet AI，一个类似于微软365 Copilot的产品、能够内嵌在各种办公软件中的AI助手。

发布会现场，谷歌也展示了Duet AI在Google Photos、Google Maps、Gmail中的能力。

具体来看，Google Photos推出Magic Editor（魔法编辑器）。你不仅可以在照片中搜索特定的人物、景物等元素，还能找到你的朋友的照片，只需在搜索栏中输入他们的名字即可。

而且你还可以使用编辑工具改善照片质量，比如去掉一些干扰物体，调整光线或者改变天空的颜色...不用再费事去打开Photoshop了，啥事都交给“AI编辑器”来实现。

上：编辑前/下：编辑后▲

仅美化照片可不够，Google Maps 将街景与导航结合，发布新功能Immersive View for routes（沉浸式路线视图）。

用户在导航时，能同步看到整个路线的动态街景视角，还能查看路线中的交通、天气情况。万万没想到，现在导航也玩出花，路痴有福了！

图片都能搞定，文字自然也手到擒来，以后邮件都不用自己敲。Gmail 发布的新功能Help me write（帮我写），不仅利用生成式人工智能来辅助用户撰写邮件，而且还提供多种语气选项供用户选择。

比如你要向航空公司请求退款，只需告诉它你的需求，它就会基于你提供的航班细节为你生成一份草稿。

不仅生成邮件内容，它还能根据提示一键生成表格、文档、幻灯片等，三大办公套件一把抓。

在表格里，Duet AI可根据你的提问自动整理数据，让数据更加规范。发布会上，谷歌就有展示其自动生成遛狗业务收费表的过程。

在Google文档中，你只要告诉Duet AI 想要创作的内容，它就能自动生成文章。你也可以让它根据需求生成不同文风。

而在幻灯片方面，Duet AI 扮演着一个图片生成器的角色，可以帮你节省在互联网上找图的时间，并用原创内容来丰富幻灯片。

同时这个AI助手也能提供编程帮助，包括实时推荐、纠错代码块，并且以对话方式解答编程问题，目前支持Go、Java、Python和SQL。

而为了与微软竞争，谷歌还推出了由PaLM 2驱动的全新搜索引擎。它能够提供问题回答的摘要，比如打开Google搜索蓝牙音箱，首先顶部会出现一个简短摘要，详细标注购买时的注意事项：电池寿命、防水性、音质。另外生成内容旁会给出3个链接，每个旁边都有一个AI生成的摘要。

谷歌还发布了一种新的实验性AI工具MusicLM，该模型经过28 万小时音频数据培训，可根据文本生成5分钟歌曲。所生成的歌词，不仅可以包含有关曲目乐器内容的信息，还可以阐述创作该歌词的情感信息。

但为了规避版权问题，该模型不会创作包含特定艺术家人声的音乐。如今，MusicLM模型对所有用户开放。没想到有一天，AI也能深入音乐领域，让更多人享受到音乐创作的乐趣。

硬件产品这边，此次谷歌带来了一款直屏机谷歌Pixel 7a，一款折叠屏机Pixel Fold和一台平板电脑Pixel Tablet。

这些产品都不陌生，前期预热那会儿大家都是抱有很大期待，看谷歌与国产厂商正面竞争。但看完I/O开发者大会，相信很多人都沉默了，至于为啥沉默，看完产品大家就明白了。

先来说谷歌Pixel 7a，这是一款有多彩配色的中低端机，背部延续家族式设计，条状相机模组醒目，见惯了一众国产安卓旗舰“大饼式”镜头模组，谷歌这个倒是让人眼前一亮。新增水蓝色配色，也为该手机增添了青春活力。

但翻到正面就尴尬了...宽黑边，下巴比6a还大，连网友都忍不住吐槽：“不敢相信这是2023年的手机”！

其它核心配置方面，后置内含两颗摄像头：6400万像素主摄广角，和1300万像素超广角，只能说拍照一般。还有6.1英寸OLED屏，支持90Hz刷新率，搭载Tensor G2芯片，配备8GB内存、128GB UFS 3.1闪存，拥有4385mAh电池，以及18W有线充电+7.5W无线充电。

在百瓦快充普及的当下，谷歌还我行我素搞这种比充电宝还慢的手机，到底脑子里在想啥？

话说回来，如果外观、配置一般，那至少要价格良心点。

但谷歌主打一个“叛逆”，Pixel 7a的sub6版本售价为499美元（约合3453元人民币）；mmWave版本售价为549美元（约合3799元人民币），而且只有8GB+128GB的存储容量版本。要知道支持240W快充，并拥有16+1TB大存储组合的真我GT Neo5也才卖3499。这样一对比，谷歌简直是“离谱他妈给离谱开门”......

说到大黑边，折叠屏Pixel Fold也不逞多让。机身展开后，内屏宽大的边框让人无语凝噎，难怪有网友毫不留情吐槽“这黑边能跑马了”。

真是多看两眼，就想立刻合上...

合上后确实顺眼多了。它外观神似OPPO Find N系列，都属于横向折叠屏中主打小巧的类型。外屏5.8英寸，分辨率为2092× 1080；内屏7.6英寸，分辨率为2208×1840。两块屏幕均采用OLED面板，支持120Hz的刷新率。对这类尺寸的折叠屏来讲，优点是折叠起来可以一手掌握，不会过长过大。

虽然小巧，但它重，有283g，比三星Galaxy Fold4还要重20g，不知道的还以为拿着个砖头。

性能配置也只能说一般，搭载谷歌自研Tensor G2芯片，配有12GB LPDDR5内存，256GB以及512GB版本的UFS 3.1存储，配备4821mAh电池，支持30W有线快充和无线充电。之前Tensor G2芯片就有“发热”的前科，不知道为啥还接着用。（谷歌，这可是你的第一个折叠屏孩子）还有UFS 3.1存储...说多了心累......

使用体验方面，悬停状态的适配、内外屏应用接力、分体式键盘等都是国内厂商早已玩过的东西。要说优势，谷歌称该折叠机采用了迄今为止最耐用的铰链，耐不耐用要等实际上手才知道，但摆在眼前的有一个尴尬问题：折痕太明显了吧。

来源网络，媒体上手体验▲

总之，这次Pixel Fold并未给人太多新意，想必谷歌也意识到这个问题，反手就给出大招：买Pixel Fold，赠送一台Pixel Watch。

看完手机，再来看看谷歌这次发布的平板电脑Pixel Tablet 。

该平板正面采用11英寸LCD屏，2560*1600分辨率，60Hz刷新率，长宽比为16:10，虽然四边等宽边，但边框尺寸那叫一个宽呐，借用网友喷Pixel 7a的话“不敢相信这是2023年的手机平板”。

核心配置方面，Pixel Tablet也是自研Tensor G2芯片，另外还配有一颗Titan M2安全协处理器，内存为8GB LPDDR5，UFS 3.1闪存，内置27Wh电池，支持18W快充。前后均为800万像素镜头。

要说该平板最大的亮点，或许是加了底座，能把平板变成智能音箱，额...确定这不是照小爱同学抄的？

最后该平板提供128GB、256GB两种版本，售价分别为499美元（约合3459元人民币）、599美元（约合4153元人民币），目前已在美国、加拿大、英国、德国、法国等地开启预售。这价格，突然觉得我手里的小米平板可香了。

说完硬件产品，再聊聊每年必到的新系统。这次谷歌没有大篇幅介绍Android 14系统，其更新只能算“小修小补”。主要是两项AI新能力，Magic Compose和生成式壁纸（Pixel设备独占）。

其中，谷歌在安卓系统的默认短信（Messages）应用中引入了Magic Compose功能，它是一种基于AI生成模型的工具，能根据消息内容生成回复文本，甚至聪明到模仿你的说话方式。

除此之外，Android 14还有AI壁纸生成功能，用户可以选择主题，通过AI生成新的壁纸，这项功能仅限于Pixel设备。

顺带一提，Android 14升级了“查找我的设备”这项功能，该功能借鉴苹果iOS系统，它能帮助用户更好寻找设备。假如如果你的Google Pixel buds落在机场，你可以通过Android 14手机上的Find My Device来定位，轻松找到你的设备。

目前Android 14 Beta版已经上线，首批尝鲜Android 14的厂商包括谷歌、iQOO、联想、Nothing、一加、OPPO、真我、传音、vivo和小米等。

首批上线Android 14的设备机型还有谷歌Pixel 4a、Pixel 5、Pixel 5a、Pixel 6、Pixel 6 Pro、Pixel 7、Pixel 7 Pro、小米13、小米13 Pro、小米12T、vivo X90 Pro、iQOO 11等。

今早ColorOS官方就发了首批适配Android 14的ColorOS开发者预览版，包括OPPO Find N2、OPPO Find N2 Flip以及OnePlus 11都可进行尝鲜。这是ColorOS连续第五年首发适配大版本，这速度说领跑安卓阵营也不为过。

相信不久后，关于安卓系统更新的话题会成为大家的交流热点。当然，各位极客朋友们可以提前尝鲜体验体验，看看新系统如何。

整体来看，这次谷歌I/O大会还是挺丰富的，有反击GPT-4的PaLM 2、Bard强进化向所有人开放、Duet AI整进谷歌办公全家桶、Android 14系统和谷歌搜索均加入AI等，让人看得目不暇接。

相比之下硬件产品要稍显逊色，看不出谷歌下了功夫，不过谷歌也确实从来都不太喜欢在硬件大做文章。

这也是为什么今年整场I/O大会谷歌都在围着AI夸夸其谈，PaLM 2模型也被大家认为是谷歌追赶微软的挣扎手段。

事实上，早在去年I/O大会上，谷歌就有展示过专门针对对话类应用的大语言模型 LaMDA和多模态多任务模型 MUM ，这俩模型实际已经具备了和 ChatGPT 基本相同的能力。只不过LaMDA发布至今已有一年半时间，却仍然没有像ChatGPT那样面向公众大规模开放，以至于半路让ChatGPT截胡，特别是ChatGPT意外破圈进入主流这件事，让谷歌彻底紧张来了。

同时微软的优异表现也让谷歌一度被唱衰，所以PaLM 2的到来属于意料之中，迫在眉睫。甚至下一代大模型Gemini也在同步进行中，可见谷歌的重视程度，但怎么看都是“起大早赶晚集”。不过，这次谷歌I/O 大会倒是给谷歌支持者们打一针强心剂，仿佛在说“我只是慢了，并不是噶了。”

本文由极果用户极果媒体原创

责任编辑：

关键词：