专题:聚焦谷歌2024年I/O开发者大会:及时交互、视频模子登场开云体育(中国)官方网站
来源:谷歌黑板报
作家:Sundar Pichai
Google 和 Alphabet CEO
编者按:以下是 Sundar Pichai 在 2024 年 I/O 大会上讲话裁剪稿,流程调整以包含更多在舞台上晓喻的推行。
Google 已全面进入 Gemini 期间。
在深远探讨之前,我想先讲究一下咱们所处的时刻。十多年来,咱们一直在 AI 领域进行进入,并在各个层面进行改造:研究、产物、基础设施,今天咱们将对此进行全面计划。
尽管如斯,咱们仍处于 AI 平台转型的初期。咱们看到了为创作家、开发者、初创公司以及每一个东谈主所带来的巨大机遇。匡助推动这些机遇恰是咱们 Gemini 期间的酷爱酷爱场地。让咱们运行吧。
Gemini 期间
一年前,在 I/O 大会上,咱们初次共享了 Gemini 的计划:一个从一运行就构建为原生多模态的前沿模子,大概跨文本、图像、视频、代码等多种数据类型进行推理。它绚丽着将苟且输入援助成苟且输出的遑急一步——新一代的“I/O”。
自那以来,咱们推出了首批 Gemini 模子,这是咱们迄今为止功能最壮健的模子。它们在每个多模态基准测试中齐领有不凡的理解。两个月后,咱们又推出了 Gemini 1.5 Pro,它在处理长高下文方面取得了紧要冲破,大概清楚地在分娩环境中运行 100 万个令牌(Token),比现时任何其他大畛域基础模子齐要多。
咱们但愿每个东谈主齐能从 Gemini 的功能中受益。因此,咱们立即活动起来,与环球共享这些进展。现时,超越 150 万的开发者在使用咱们多样用具中的 Gemini 模子。你们使用它来调试代码、获取新的见地并打造下一代的 AI 应用。
咱们也在握住将 Gemini 的冲破性功能以壮健的方式整合到咱们的产物中。今天,咱们将展示搜索、Photos、Workspace 和 Android 等产物中的实例。
产物进展
今天,咱们所有领有 20 亿用户的产物齐在使用 Gemini。
咱们还推出了全新的体验,包括在移动开荒上,东谈主们现时不错通过 Android 和 iOS 上的应用法度凯旋与 Gemini 互动, Gemini Advanced让用户还不错使用咱们功能最强的模子。仅在三个月的时分里,已有超越一百万东谈主注册试用,何况势头依然强劲。
在搜索中扩展 AI Overviews
Gemini 带来的最令东谈主怡悦的变革之一是在 Google 搜索中。
在昔日的一年中,手脚咱们生成式搜索体验(Search Generative Experience)的一部分,咱们仍是回答了数十亿个搜索查询。东谈主们正在以全新的方式使用搜索,建议全新类型的问题,作出更长、更复杂的查询,致使是通过像片进行搜索,并获取相聚上的最好信息。
咱们一直在 Labs 除外对这种体验进行测试。咱们倍受荧惑地看到,不仅搜索的使用量有所加多,用户怡然度也得到了提高。
我很欢笑晓喻,咱们将于本周在好意思国向所灵验户推出这一全新改版的 AI Overviews 体验。咱们很快也将把这项体验彭胀到更多国度。
在搜索领域正发生着诸多改造。收货于 Gemini,咱们大概打造更为壮健的搜索体验,包括在咱们的产物之中。
先容 Ask Photos
Google Photos 便是一个例子,在约莫九年前,咱们发布了这款产物,自那以来,东谈主们一直用它来整理最寥落的回忆。如今,每天上传的像片和视频数目超越 60 亿。
东谈主们心爱使用 Photos 来搜索他们生涯中的点滴。借助 Gemini,咱们让这一切变得愈加肤浅。
假定你在泊车场缴费时,却想不起我方的车招牌。以往,你需要在 Photos 中搜索重要词,然后翻找多年蕴蓄的像片来寻找车牌。但现时,你只需凯旋筹商 Photos 即可。它大概识别出不时出现的车辆,通过多方信断交叉考据判断出哪一辆是你的,并提供车招牌码。
Ask Photos 还大概匡助你以更深远的方式重温回忆。举例,你可能正在品味犬子 Lucia 成长的早期遑急时刻。现时,你不错凯旋问 Photos:“Lucia 是什么时候学会拍浮的?”
你致使不错跟进建议更复杂的问题:“向我展示 Lucia 的拍浮妙技是若何朝上的。”
在这里,Gemini 不再只是进行肤浅的搜索,它会识别不同的高下文——从在拍浮池中扑腾,到在海洋中浮潜,再到她拍浮文凭上的翰墨和日历。Photos 会将所有这些信息整合在一谈形成一个总结,让你大概全面了解,并再次重温那些好意思妙的回忆。咱们将在本年夏天推出 Ask Photos,并将持续加多更多功能。
通过多模态和长高下文解锁更多学问
为了理解跨越不同形式的多样学问,咱们从一运行就将Gemini 打形成多模态的。它是一个内置了所有模态的模子。因此,它不错理解不同类型的输入,并找到它们之间的辩论。
多模态从压根上扩展了咱们不错建议的问题以及咱们将得到的谜底。而长文本才气则使其更进一步,让咱们大概引入更多信息:数百页文本、数小时音频或一小时的视频、所有这个词代码存储库……或者,若是你炫耀,约莫 96 份芝士蛋糕工场餐厅的菜单。
处理这样无数的菜单,你可能需要 100 万令牌的高下文窗口,而现时通过 Gemini 1.5 Pro 就不错竣事。开发者们就一直在以多样相当酷爱的方式使用它。
在昔日的几个月里,咱们仍是推出了具有长高下文才气的 Gemini 1.5 Pro的预览版,咱们还对翻译、编码和推理的质地进行了一系列阅兵。从今天运行,你也将在模子中看到这些更新。
现时我很欢笑地晓喻,咱们将向全球所有开发者推出阅兵版的 Gemini 1.5 Pro。此外,从今天运行,具有100 万令牌高下文才气的 Gemini 1.5 Pro 也可供 Gemini Advanced 的浪掷者凯旋使用,包含 35 种说话。
在非公开预览版中扩展到 200 万令牌
100 万令牌正在开辟全新的可能性。这仍是很立志东谈主心,但我以为咱们还不错更进一步。
今天,咱们将高下文窗口扩展到 200 万个令牌,并将其以非公开预览版的方式提供给开发者们。
昔日几个月来咱们所取得的进展让我相当激昂,这代表着咱们朝无穷高下文的最终办法又迈出了一步。
将 Gemini 1.5 Pro 应用于 Workspace
到现时为止,咱们仍是共享了两项时候朝上:多模态和长高下文。他们各自仍是相当壮健,但二者统一大概开释更深档次的才气和更多的智能。
这在 Google Workspace 中体现得愈加大书特书。
耐久以来,东谈主们总在 Gmail 中搜索他们的电子邮件。而现时咱们正通过 Gemini 使其变得愈加壮健。举例,手脚家长,你但愿随时了解孩子在学校发生的一切,Gemini 就不错匡助你!
现时,咱们不错让 Gemini 总结学校最近发来的所有电子邮件。在后台,它不错识别关系电子邮件,致使分析 PDF 等附件,你不错获取一份包含重要要点和待办事项的纲目。也许你本周正在路径中,无法参加家长会议,而会议灌音长达一个小时。若是这份灌音来自于 Google Meet,你就不错让 Gemini 为你提供重心推行。倘若有个家长小组正在寻找志愿者,而你那天恰恰有空,那么诚然,Gemini 还不错匡助你草拟复兴邮件。
还有无数其他例子不错确认 Gemini 如何让生涯更即兴。今天起 Gemini 1.5 Pro 仍是应用在 Workspace Labs 中。
NotebookLM 中的音频输出
咱们刚刚看了一个文本输出的例子,但通过多模态模子,咱们不错作念得更多。
咱们在这方面仍是取得了进展,畴昔还会有更多。NotebookLM 中的音频概述(Audio Overview)就涌现了在这方面的进展:它通过 Gemini 1.5 Pro,不错基于你的源文献生成个性化和交互式音频对话。
这便是多模态带来的可能性,很快你就大概将输入和输出进行夹杂和匹配,这便是咱们所说的新一代 I/O的酷爱。但若是咱们还能再进一步呢?
使用 AI 智能体更进一步
在这一方面更进一步便是咱们在 AI 智能体(AI Agents)上看到的机遇之一。我以为它们是不错推理、筹谋和牵记的智能系统。它们大概提前多步”想考”,跨软件和系统做事,所有这些齐是为了匡助你完成任务,而最遑急的是要在你的监督之下。
咱们仍处于早期阶段,但让我向你展示一些咱们正在竭力管制的应用案例的类型。
让咱们以购物为例。买鞋很特殊想,但当鞋子鉴别适需要退货时就不那么酷爱了。
遐想一下,若是 Gemini 不错为你完成所有形式:
在你的收件箱中搜索收条……
从你的电子邮件中找到订单号……
填写退货表格……
致使安排 UPS 取件。
那是不是容易多了?
让咱们再举一个更复杂一些的例子。
假定你刚搬到芝加哥。遐想一下 Gemini 和 Chrome 大概共同相助匡助你作念好多准备做事——代替你组织、推理、详尽分析等。
比如,你想要探索这座城市并找到隔壁的服务——从干洗店到遛狗服务,你还必须在数十个网站上更新你的新地址。
现时 Gemini 不错胜任这些做事,并在需要时指示你提供更多信息。这样事情恒久在你的掌控之中。
这部分相当遑急——当咱们作念这些体验的原型遐想时,咱们三想尔后行如缘何一种奥秘、安全且对每个东谈主齐适用的方式来进行。
这些齐是肤浅的应用案例,但它们不错让你很好地了解到,通过构建大概代表你去提前想考、推理和计划的智能系统,咱们但愿大概管制的问题类型。
这对咱们的责苟且味着什么
Gemini 凭借其多模态、长高下文和智能体,使咱们更接近咱们的最终办法:让 AI 助力每个东谈主。
咱们以为,这是咱们在达成责任方面取得最猛进展的方式:整合以多样方式输入的全球信息,使其不错通过任何输出方式被获取,并将全球信息与你的全国中的信息统一起来,以一种真确对你灵验的方式进行呈现。
新的冲破
为了充分理解 AI 的后劲,咱们需要开改造领域,谷歌 DeepMind 团队一凯旋力于于此。
咱们仍是收到了环球对 1.5 Pro 额外长高下文窗口的关爱响应,但咱们也从开发东谈主员那儿了解到,他们想要更快、更具本钱效益。因此,翌日,咱们将推出 Gemini 1.5 Flash,一个为畛域化构建的更轻量级的模子,它针对以低延伸和本钱为重的任务进行了优化。1.5 Flash 将于周二在 AI Studio 和 Vertex AI 中提供。
瞻望畴昔,咱们恒久但愿构建一个在往常生涯中灵验的通用智能体。Astra 方法展示了多模态理解和及时对话才气。
咱们还在视频和图像生成方面取得了进展,推出了 Veo 和 Imagen 3,并推出了 Gemma 2.0——咱们为负连累的 AI 改造打造的下一代洞开模子。
AI 期间的基础设施:先容 Trillium
测验开端进的模子需要无数的策画才气。昔日六年中,行业对机器学习策画才气的需求增长了 100 万倍。而且,每年齐会以十倍的速率增长。
Google 在这方面具有上风。25 年来,咱们一直在投资全国一流的时候基础设施,从复旧搜索的顶端硬件,到为咱们的 AI 朝上提供复旧的定制张量处理单位(tensor processing units)。
Gemini 弥漫在咱们的第四代和第五代 TPU 上进行测验和服务。包括 Anthropic 在内的其他最初的 AI 公司也仍是在 TPU 上测验了他们的模子。
今天,咱们很欢笑地晓喻推出第六代 TPU—— Trillium。Trillium 是咱们迄今为止性能最强、舍弃最高的 TPU,与上一代 TPU v5e 比较,每个芯片的策画性能提高了 4.7 倍。
咱们将在 2024 年底向 Cloud 客户提供 Trillium。
除了咱们的 TPU,咱们还推出 CPU 和 GPU 来复旧任何做事负载。这包括咱们上个月晓喻的新式 Axion 处理器,咱们的首款基于 Arm 定制的 CPU,可提供业界最初的性能和能效。
咱们也很自重成为首批提供 Nvidia 顶端 Blackwell GPU 的 Cloud 提供商之一,该 GPU 将于 2025 岁首上市。咱们很侥幸能与 NVIDIA 诞滋耐久合作伙伴关系,并很欢笑能将 Blackwell 的冲破性功能带给咱们的客户。
芯片是咱们集成端到端系统的基础部分,从性能优化的硬件和洞开软件到天确凿浪掷模式。所有这些齐收集在咱们的 AI 超等策画机( AI Hypercomputer)中,这是一种独创性的超等策画机架构。
企业和开发者正在使用它来搪塞更复杂的挑战,其舍弃是仅购买原始硬件和芯片的两倍多。咱们的 AI 超等策画机的朝上之是以成为可能,是因为咱们在数据中心采用了液体冷却的步伐。
咱们仍是这样作念近10年了,远早于它成为行业的先进时候。如今,咱们部署的液体冷却系统总容量已接近 1 吉瓦,何况还在握住增长——这险些是任何其他团队的 70 倍。
这背后的基础是咱们壮健的相聚畛域,它蚁合了咱们全球的基础设施。咱们的相聚遮蔽了超越 200 万英里的陆地和海底光纤:是紧随之后的云服务提供商的 10 倍(!)以上。
咱们将不竭进行必要的投资,以推动 AI 改造并提供开端进的功能。
搜索最激昂东谈主心的篇章
咱们最大的投资和改造领域之一是咱们的创始产物——搜索。25 年前,咱们创建了搜索,以匡助东谈主们理解互联网上倾盆的信息海浪。
跟着每一次平台的逶迤,咱们齐在匡助更好地回答你的问题上取得了冲破。在移动开荒上,咱们欺诈更好的高下文、位置感知和及时信息,解锁了新式的问题和谜底。跟着当然说话理解和策画机视觉时候的朝上,咱们竣事了新的搜索方式,不错用语音或哼唱来找到你最心爱的新歌;或者用你在散布时看到的那朵花的图像来进行搜索。现时,你致使不错使用 Circle to Search 来搜索你可能想要购买的那些很酷的新鞋。去试试吧,归正你总能退货!
诚然,Gemini 期间的搜索将把这一切提高到一个全新的水平,它将把咱们的基础设施上风、最新的 AI 功能、对信息质地的高尺度以及数十年来把你与丰富的相汇注会起来的教化相统一。其舍弃将是一款为你做事的产物。
Google 搜索是生成式 AI,其畛域足以忻悦东谈主类好奇心。这是咱们迄今为止最激昂东谈主心的搜索篇章。
更智能的 Gemini 体验
Gemini 不单是是一个聊天机器东谈主;它旨在成为你过劲的私东谈主助手,不错匡助你处理复杂的任务并代表你采选活动。
与 Gemini 的互动应该是对话式的、直不雅的。因此,咱们晓喻推出称为 Live 的全新 Gemini 体验,让你不错使用语音与 Gemini 进行深远对话。咱们还会在本年晚些时候将 Gemini Advanced 提高为 200 万个令牌,以便大概上传和分析视频和长代码等超密集文献。
Android 上 的 Gemini
全球稀有十亿 Android 用户,因此咱们很欢笑能将 Gemini 更深远地融入用户体验。手脚你的全新 AI 助手,Gemini 可遍地随时为你提供匡助。咱们已将 Gemini 模子整合到 Android 中,包括咱们最新的开荒端模子:Gemini Nano 多模态模子 (Gemini Nano with Multimodality),它不错处理文本、图像、音频和语音,在保证存储在开荒上的信息奥秘性的同期解锁新的体验。
咱们负连累的 AI 步伐
咱们不竭斗胆而立志田主持住 AI 所带来的机遇。同期,咱们也在确保以负连累的步伐行事。咱们正在开发一种叫作念 AI 援救红队测试 (AI-assisted red teaming) 的顶端时候,该时候欺诈了 Google DeepMind 在 AlphaGo 等游戏方面的冲破以阅兵咱们的模子。此外,咱们也已将 SynthID 水印用具扩展到文本和视频两种新的模态,因此更容易识别 AI 生成的推行。
共同创造畴昔
所有这些齐标明了咱们在以斗胆而负连累的步伐,让 AI 助力每个东谈主方面取得的遑急进展。
很长一段时分以来,咱们一直采用 AI 为先的步伐。咱们数十年的研究蛊卦者地位独创了许多当代冲破,为咱们和所有这个词行业的 AI 朝上提供了能源。最遑急的是,咱们领有:
专为 AI 期间打造的全国最初基础设施
现时由 Gemini 提供复旧的搜索领域的顶端改造
在极大畛域上提供匡助的产物——包括 15 款领有 5 亿用户的产物
让每个东谈主——合作伙伴、客户、创作家以及所有东谈主——齐能创造畴昔的平台。
这一朝上之是以大概竣事,是因为咱们不凡的开发者社区。通过每天创建的体验和应用法度,你们将这一切变为现实。在此,我要向在 Shoreline 现场的诸君以及全球数百万在线不雅看的一又友们问候:让咱们共同管待畴昔的无穷可能,联袂共创好意思好畴昔。
股市回暖,抄底炒股先开户!智能定投、要求单、个股雷达……送给你>> 海量资讯、精确解读,尽在新浪财经APP连累裁剪:欧阳名军 开云体育(中国)官方网站