您的位置:首页 >> 行业研究 >> 文章正文

传媒行业点评报告:实时语音模型上线,继续布局AI陪伴及豆包产业链

加入日期:2025-1-22 12:34:23 【顶尖财经网】



分享到:



  顶尖财经网(www.58188.com)2025-1-22 12:34:23讯:

(以下内容从开源证券《传媒行业点评报告:实时语音模型上线,继续布局AI陪伴及豆包产业链》研报附件原文摘录)
豆包实时语音大模型上线并全量开放,或带动用户体验进一步提升
1月20日,豆包正式推出实时语音大模型,并在豆包APP全量开放。豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。豆包实时语音大模型主要面向中文语境和场景(可进行英语对话,暂不支持多语种)。依托于语音和语义联合建模,豆包实时语音大模型拥有丰富表现力和巨大拓展潜力,呈现出接近真人的语音表达水准,在语音指令控制的泛化理解和演绎生成方面,显著突破原有边界,且可直接服务广大用户。根据外部用户真实反馈,该模型整体满意度较GPT-4o有明显优势,特别是语音语气自然度和情绪饱满度远高于后者。
真人级语音对话能力,或有望带来AI向AGI突破
豆包实时语音大模型主要有以下几个特点:(1)突破真人级语音对话能力的限制:真人级语音对话,能提供更为亲和的交互体验和情感价值,或是AI迈向AGI的关键里程碑。团队研发出了一套端到端框架,深度融合语音与文本模态。该框架面向语音生成和理解进行统一建模,最终实现多模态输入和输出效果。(2)智商与情商双双在线,赋予AI对话“真人感”:具体特征包括拟人化的情感承接,模型能够接住用户的内容与情绪,输出恰当表达;强大的声音控制和丰富的情感演绎能力,模型在对话或内容演绎中,可生动切换成不同角色/状态,配合不同情绪表达,增强交互趣味性和沉浸感;智商与表现力之间的平衡,模型对各维度信息进行深度理解,输出信息具备有用性与真实性。同时,输出语音表现力高度逼近真人,包括类人的副语言特征(如语气词、停顿思考等);丝滑的交互体验和超低延迟。
实时语音大模型或进一步发挥AI情感陪伴价值,关注相关AI应用投资机会
据AI产品榜,2024年12月字节旗下虚拟角色APP猫箱MAU为688万,月增速达50.18%。在1月初的CES2025上,多家国内及日本厂商发布的AI情感陪伴玩具引发广泛关注。豆包真人级语音对话可以提供更真实的情感陪伴,有利于情感陪伴类应用进一步提升用户体验,也有望为AI端侧硬件打开更广阔的空间,如AI语音助手硬件以及AI玩具等。我们建议继续布局AI陪伴相关投资机会,重点推荐奥飞娱乐盛天网络顺网科技、网易云音乐,受益标的包括汤姆猫实丰文化世纪天鸿富春股份等。据AI产品榜,2024年12月豆包MAU为7116万,月增速达18.64%。豆包实时语音大模型的推出有望进一步改善字节旗下应用体验,加速用户增长,带动字节系营销及相关产业链需求提升,重点推荐引力传媒,受益标的包括创业黑马天龙集团省广集团蓝色光标视觉中国中文在线、遥望科技等。
风险提示:豆包大模型迭代速度不及预期;豆包AI应用商业化进程不及预期。





编辑: 来源:



    郑重声明:以上信息为分析师、合作方提供,本站不拥有版权,版权归原作者所有,如有侵犯您的版权,请及时联系我们,我们将立即改正!以上文章内容仅代表作者个人观点,与顶尖财经网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作出任何保证或承诺,请读者仅作参考,并请自行核实相关内容。本文不作为投资的依据,仅供参考,据此入市,风险自担。发布本文之目的在于传播更多信息,并不意味着顶尖财经网赞同或者否定本文部分以及全部观点或内容。如对本文内容有疑义,请及时与我们联系。

顶 尖 财 经 -- 中 华 顶 尖 网 络 信 息 服 务 中 心
www.58188.com