和大小

快乐飞艇app 谷歌发布首个原生多模态镶嵌模子Gemini Embedding 2

快乐飞艇app 谷歌发布首个原生多模态镶嵌模子Gemini Embedding 2

3 月 10 日,谷歌 DeepMind 推出 Gemini Embedding 2,这是该公司首个原生多模态镶嵌模子,将文本、图像、视频、音频及文档合资映射至单一镶嵌空间,秀丽着 AI 镶嵌技能迈入全模态和会的新阶段。

客服QQ:88888888

Gemini Embedding 2 支援超 100 种说话的语义领路,并在文本、图像及视频任务的基准测试中卓著现存主流模子,同期引入了此前镶嵌模子所欠缺的语音处理材干。

该模子现已通过 Gemini API 及 Vertex AI 投入公开预览阶段,诞生者可即时接入。

关于企业用户而言,该模子的发布径直镌汰了构建多模态检索增强生成(RAG)、语义搜索及数据分类系统的技能门槛,有望简化此前需跨模态永别处理的复杂数据管说念。

全模态合资:从文本推广至五类媒体方法

Gemini Embedding 2 基于 Gemini 架构构建,米兰体彩将镶嵌材干从纯文本推广至五类输入方法:

文本支援最多 8192 个输入 token;

图像每次苦求最多处理 6 张,支援 PNG 及 JPEG 方法;

视频支援最长 120 秒的 MP4 和 MOV 文献;

音频可径直摄入并生成镶嵌向量,无需经由中间文本转录才略;

文档则支援最多 6 页的 PDF 文献径直镶嵌。

区别于一一处理单一模态的传统表情,该模子支援交错输入,快乐飞艇下载即在单次苦求中同期传入图像与文本等多种模态组合,使模子大概捕捉不同媒体类型之间复杂而细小的语义干系。

{jz:field.toptypename/}

Gemini Embedding 2 持续了谷歌此前镶嵌模子中摄取的 Matryoshka 默示学习(MRL)技能。该技能通过 " 嵌套 " 表情动态压缩向量维度,使输出维度可从默许的 3072 天真缩减,匡助诞生者在模子性能与存储资本之间取得均衡。

基准测试跨越,语音材干为新亮点

谷歌默示,Gemini Embedding 2 在文本、图像及视频任务的基准测试中均优于面前主流竞品模子,并将其定位为多模态镶嵌范围的新性能标杆。

谷歌提议诞生者把柄行使场景采用 3072、1536 或 768 三档维度,以获取最优质的镶嵌遵循。这一缠绵关于需要大范围部署镶嵌向量的企业尤为艰辛,可在不显耀葬送精度的前提下有用适度基础措施资本。

在材干粉饰方面,该模子引入了此前同类模子多数缺失的原生语音镶嵌材干,无需借助语音转笔墨的中间要道即可径直处理音频数据。

{jz:field.toptypename/}

谷歌指出,镶嵌技能已平常行使于其多款家具之中,粉饰 RAG 场景下的高下文工程、大范围数据处治以及传统搜索与分析场景。

当今已有部分早期打听互助伙伴启动基于 Gemini Embedding 2 构建多模态行使,谷歌称这些用例正在扫尾该模子在高价值场景中的本色后劲。



Copyright © 1998-2026 快乐飞艇APP官方网站™版权所有

guojinglong.com 备案号 备案号: 

技术支持:®快乐飞艇  RSS地图 HTML地图