您的位置:首页 >> 行业研究 >> 文章正文

信息服务行业跟踪报告:谷歌多模态AI模型Gemini正式发布,在众多领先基准测试中展现出最先进性能

加入日期:2023-12-18 17:35:39

  顶尖财经网(www.58188.com)2023-12-18 17:35:39讯:

(以下内容从海通国际《信息服务行业跟踪报告:谷歌多模态AI模型Gemini正式发布,在众多领先基准测试中展现出最先进性能》研报附件原文摘录)
投资要点:
谷歌发布多模态AI模型Gemini,未来将应用于谷歌众多产品服务。根据谷歌黑板报官微,谷歌Gemini大模型正式发布,Gemini是包括GoogleResearch在内的Google各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。Gemini也是谷歌迄今为止最灵活的模型,从数据中心到移动设备,它能够在所有设备上高效运行。其先进的功能将显著改善开发者和企业客户通过AI构建和扩展的方式。谷歌针对三种不同的尺寸对第一代Gemini1.0进行了优化:GeminiUltra—谷歌规模最大且功能最强大的模型,适用于高度复杂的任务。GeminiPro—谷歌适用于各种任务的最佳模型。GeminiNano—谷歌端侧设备上最高效的模型。12月7日开始,Bard将使用GeminiPro的微调版本来进行更高级的推理、规划和理解等。这是Bard自推出以来最大的升级。Pixel8Pro是首款搭载GeminiNano的智能手机,它可以支持录音应用中的“总结”等新功能,并在Gboard中推出“智能回复”功能,从WhatsApp开始,2024年还将推出更多信息应用。未来几个月,Gemini将应用于谷歌更多的产品和服务,如Search、Ads、Chrome和DuetAI。
Gemini能力强大,在众多领先基准测试中展现出最先进性能。从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,GeminiUltra的性能有30项都超过了目前最先进的水平。GeminiUltra的得分率为90.0%,是第一个在MMLU(大规模多任务语言理解)测试中超过人类专家的模型,MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。针对MMLU,谷歌新的基准测试方法让Gemini能够利用其推理能力在回答困难问题之前更加仔细地思考,从而比仅凭第一印象就直接回答问题有显著的改善。在新的MMMU基准测试中,GeminiUltra也取得了得分率为59.4%的优异成绩,该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。在谷歌的图像基准测试中,GeminiUltra在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下,表现优于以前最好的模型。这些基准测试凸显了Gemini的原生多模态性,并显示出了Gemini具有更复杂推理能力的潜力。
Gemini原生多模态设计,在几乎各领域都拥有最先进能力。到目前为止,创建多模态模型的标准方法是分别训练不同模态的组件,然后将它们拼接在一起,以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务,但在概念性更强、更复杂的推理方面却显得力不从心。谷歌将Gemini设计为原生多模态,从一开始就在不同模态上进行预训练。然后,谷歌利用额外的多模态数据对其进行微调,以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理,远远优于现有的多模态模型,其能力几乎各个领域都是最先进的。Gemini1.0具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息,从数十万份文件中提取见解的卓越能力,将有助于在从科学到金融等多个领域以数字化速度实现新的突破。Gemini1.0经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理。谷歌的第一代Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。我们认为,Gemini的发布,代表多模态大模型的发展进入了新时期,未来AI在各行业商业落地有望持续加速。
风险提示:AI技术发展不及预期,AI商业落地不及预期。





编辑: 来源: