计算机行业点评：Gemini发布,原生多模态与更强的理解能力_行业研究

您的位置：首页 >> 行业研究 >> 文章正文

计算机行业点评：Gemini发布,原生多模态与更强的理解能力

加入日期：2023-12-8 8:36:40

　　顶尖财经网(www.58188.com)2023-12-8 8:36:40讯：

（以下内容从华安证券《计算机行业点评：Gemini发布,原生多模态与更强的理解能力》研报附件原文摘录）
主要观点：
事件概况
谷歌于 12 月 6 日发布了其新一代 AI 大模型 Gemini，主要特性包括但不限于：
1）在基准测试中多项得分高于 GPT-4V，并在视频、音频等项目中优势较大； 2）原生多模态，并拥有更强的复杂推理能力； 3）更细的产品分级，覆盖从云到端； 4）人机协同编程成为现实； 5）不同于英伟达产品的专用硬件支持。
更细的产品定位划分，有望快速适配终端
根据参数量和模型复杂度， Gemini 将分为 Ultra、 Pro 和 Nano 三个子系列，覆盖从数据中心到手持智能终端。在谷歌服务框架的普及率和完善度的加持下， Gemini 有望快速投入终端市场。 Gemini Pro 的微调版本将用于 Bard 进行更高级的推理、计划、理解等。 Pixel8 Pro 是首款专为 GeminiNano 设计的智能手机，可在录音机中的“汇总”和Gboard 中的“智能回复”等功能中使用。
颠覆性的多模态训练方式
不同于现有主流大模型的训练方式，即通过为不同的模态训练单独的组件，然后将它们拼接在一起以粗略地模仿其中的一些功能， Gemini从一开始就对不同的模态进行预训练，再用额外的多模态数据对其进行了微调，以进一步完善其有效性，这能帮助 Gemini 从头开始无缝地理解和推理各种输入信息，使其能够有更加亮眼的理解表现。
从跑分结果来看，表现不逊于 GPT-4v
谷歌官方从自然图像、音频和视频理解到数学推理， Gemini Ultra 在大型语言模型（LLM）研发中使用的 30 个广泛使用的学术基准中的 32 个方面，其性能超过了当前最先进的结果，并在 MMLU（大规模多任务语言理解）中超过了人类专家。以上表现从理论层面充分说明了 Gemini 的不俗能力，有望跻身一线并挑战 GPT 系列。
独立于英伟达的硬件支持
有别于传统大模型对英伟达硬件及生态的依赖， Gemini 的训练来自于谷歌的 TPU v4 和 v5e 的硬件支持。与此同时，谷歌也顺势宣布推出迄今为止功能最强大、最高效、可扩展性最强的 TPU 系统 CloudTPU v5p，将用于更高层次的 ai 开发。我们认为，随着大模型领域软硬件互促，未来硬件生态也有望实现进一步丰富，摆脱对单一生态和单一硬件供应商的依赖。
风险提示
1）政策落地不及预期； 2）技术突破不及预期； 3）供应链波动大，影响科技企业发展。

编辑：　来源：