信息服务行业跟踪报告：谷歌多模态AI模型Gemini正式发布，在众多领先基准测试中展现出最先进性能_行业研究

您的位置：首页 >> 行业研究 >> 文章正文

信息服务行业跟踪报告：谷歌多模态AI模型Gemini正式发布，在众多领先基准测试中展现出最先进性能

加入日期：2023-12-18 17:35:39

　　顶尖财经网(www.58188.com)2023-12-18 17:35:39讯：

（以下内容从海通国际《信息服务行业跟踪报告：谷歌多模态AI模型Gemini正式发布，在众多领先基准测试中展现出最先进性能》研报附件原文摘录）
投资要点：
谷歌发布多模态AI模型Gemini，未来将应用于谷歌众多产品服务。根据谷歌黑板报官微，谷歌Gemini大模型正式发布，Gemini是包括GoogleResearch在内的Google各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息，包括文本、代码、音频、图像和视频。Gemini也是谷歌迄今为止最灵活的模型，从数据中心到移动设备，它能够在所有设备上高效运行。其先进的功能将显著改善开发者和企业客户通过AI构建和扩展的方式。谷歌针对三种不同的尺寸对第一代Gemini1.0进行了优化：GeminiUltra—谷歌规模最大且功能最强大的模型，适用于高度复杂的任务。GeminiPro—谷歌适用于各种任务的最佳模型。GeminiNano—谷歌端侧设备上最高效的模型。12月7日开始，Bard将使用GeminiPro的微调版本来进行更高级的推理、规划和理解等。这是Bard自推出以来最大的升级。Pixel8Pro是首款搭载GeminiNano的智能手机，它可以支持录音应用中的“总结”等新功能，并在Gboard中推出“智能回复”功能，从WhatsApp开始，2024年还将推出更多信息应用。未来几个月，Gemini将应用于谷歌更多的产品和服务，如Search、Ads、Chrome和DuetAI。
Gemini能力强大，在众多领先基准测试中展现出最先进性能。从自然图像、音频和视频理解到数学推理，在被大型语言模型（LLM）研究和开发中广泛使用的32项学术基准中，GeminiUltra的性能有30项都超过了目前最先进的水平。GeminiUltra的得分率为90.0%，是第一个在MMLU（大规模多任务语言理解）测试中超过人类专家的模型，MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目，用于测试世界知识和解决问题的能力。针对MMLU，谷歌新的基准测试方法让Gemini能够利用其推理能力在回答困难问题之前更加仔细地思考，从而比仅凭第一印象就直接回答问题有显著的改善。在新的MMMU基准测试中，GeminiUltra也取得了得分率为59.4%的优异成绩，该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。在谷歌的图像基准测试中，GeminiUltra在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下，表现优于以前最好的模型。这些基准测试凸显了Gemini的原生多模态性，并显示出了Gemini具有更复杂推理能力的潜力。
Gemini原生多模态设计，在几乎各领域都拥有最先进能力。到目前为止，创建多模态模型的标准方法是分别训练不同模态的组件，然后将它们拼接在一起，以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务，但在概念性更强、更复杂的推理方面却显得力不从心。谷歌将Gemini设计为原生多模态，从一开始就在不同模态上进行预训练。然后，谷歌利用额外的多模态数据对其进行微调，以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理，远远优于现有的多模态模型，其能力几乎各个领域都是最先进的。Gemini1.0具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息，从数十万份文件中提取见解的卓越能力，将有助于在从科学到金融等多个领域以数字化速度实现新的突破。Gemini1.0经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。谷歌的第一代Gemini可以理解、解释和生成世界上最流行的编程语言（如Python、Java、C++和Go）的高质量代码。它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。我们认为，Gemini的发布，代表多模态大模型的发展进入了新时期，未来AI在各行业商业落地有望持续加速。
风险提示：AI技术发展不及预期，AI商业落地不及预期。

编辑：　来源：