当前位置:首页 > Deepseek应用场景 > 正文内容

声网发布对话式AI引擎,DeepSeek开口说话 对话式AI引擎,到底能做点啥?

2个月前 (03-10)Deepseek应用场景126

一家上海公司,帮助DeepSeek像真人一样开口说话。

3月上旬,声网发布对话式AI引擎,只要两行代码,15分钟,可令任意文本大模型“能说会道”。

这是个“新物种”。

按团队所说,它拥有多项独家功能,放眼全球,难找出对标的。对话1分钟,成本不到1毛钱。

“之前,大模型都是文字输入,将来,我们要让大模型懂你。”声网产品线负责人和利鹏说。

为了这次的新产品,声网AI RTE产品线负责人姚光华向《21CBR》记者透露,从春节开始,公司疯狂赶工,像高考一样备战,2月18日掏出Public Beta版本,这次的发布,已达到可商用状态。

截至3月7日美股收盘,声网市值为36亿元人民币。

黑屋作战

DeepSeek爆火时,声网的产品团队,悄然启动一场关键战役。

春节期间,声网内部调度不同部门的十几位核心骨干,组建一个专门团队,只干一件事:做一款能跟AI实时互动的工具产品。

早在半年前,这个想法就开始酝酿,顺应DeepSeek掀起的这波浪潮,项目陡然提速。

“大家关在‘小黑屋’里,产品、研发等不同条线的负责人凑在一起,快速决策、快速推进。”姚光华形容,像是高考备战,室内放着一块白板,每天更新着倒计时日期,提醒所有人,必须一鼓作气。

大模型从单一模态走向多模态,势不可挡,语音被视为关键切入点之一。

做实时互动云服务起家的声网,在音视频领域有较深积累,期望将自家RTE技术与生成式AI结合,以新产品抢占制高点。

紧赶慢赶,除夕那天,对话式AI引擎上线Private Beta版本,首批开发者和客户来了,做的第一件事,算意料之中——让DeepSeek开口拜年。

对声网而言,这款产品的意义不一般。

和利鹏告诉《21CBR》,声网多年专注的,是人与人的交流,做对话式AI引擎,转向人与机器的交流,且要做到实时互动,交流模式变了,底层的技术要求也不一样了,“工程化落地上,存在很多挑战。”

姚光华提到,让AI语音秒回提问,模拟真人对话的节奏,随时打断AI,这些功能构想来自于客户需求的抽丝剥茧,实际落地则需要边走边试,查漏补缺。

“比如对话人声锁定这个功能,就是靠客户提出来的。”姚光华说,某种程度上,客户是最好的导师。

拆解引擎

“之所以叫‘对话式AI引擎’,就在于我们不做Agent,只想构建对话式工具。”姚光华向《21CBR》强调。

定产品名字时,团队一度考虑用“转换器”,寓意接入即可令AI听懂人说话,但最终拍板的是“引擎”。

这没有“转换器”听上去通俗,但更能亮明声网的态度:只提供能力,与大模型厂商合作而非竞争。

“大家都在说AI Infrastructure,我们认为,实时互动也是其中一部分。声网的角色,就是AI Infrastructure里的交互。”和利鹏透露,公司跟国内几家模型厂商都有合作。

他提到,大模型厂商自己从头做交互,设备、网络等各种要求很高。声网做实时互动十几年,方案和产品的成熟度高,更具优势。

能让大模型开口说话的“引擎”,拆解下来,有AI语音秒回、对话人声锁定、智能打断、全模型适配等多项能力,姚光华说,转化成产品语言就是四个字,“多快好省”。

其中,响应延迟方面,以毫秒为单位压缩,中位数能达到650ms。

姚光华指出,市面上一些产品,宣传能做到毫秒级,实际测量延迟很大。

对话体验方面,“选择性注意力锁定”功能可屏蔽95%环境人声、噪声干扰,精准识别对话人声,80%丢包率、断网3-5s等情况下,保持稳定流畅对话。

开发部署上,程序员只需两行代码、15分钟,填入与复制LLM与TTS相关的URL与Key后,就可实现快速部署。

至于外界关心的价格,声网团队有过激烈讨论、反复商量,最终决定,AI语音对话0.098元/分钟,自研的“智能打断”功能作为增值服务,定价0.042元/分钟。

此外,一次性增予所有开发者1000分钟免费额度。

姚光华表示,经过一段时间的打磨及实际使用场景调研,团队发现,用户与AI每产生1次对话,平均会有约3轮问答,计算下来平均对话时长约为21.1s,单次成本为3分钱。

若每月对话次数15次,那么月成本不到5毛钱,年成本只要5元。

“这是个足够便宜到大家用得起的价格。”姚光华说。

人机未来

对话式AI引擎,到底能做点啥?

和利鹏表示,开发者可部署的场景,包括智能助手、虚拟陪伴、口语陪练等,公司已落地十几种场景,比较多的是陪伴类,智能硬件的需求也不少。

比如,让能开口对话的DeepSeek陪伴孩子,应对他们天马行空的十万个为什么,同时交流像与父母对话那样自然。

“小孩子想要的是快速互动,不在于答案是否足够准确,而是先玩起来。”和利鹏说。

在他看来,实时互动从人与人的交互,走向人与机器的交互,对声网深耕的RTE赛道而言,是个很大的延展。

“或许下一个变革,是所有触摸式和键盘式的交互,都变成语音式。现在我们已经看到了一些苗头。”和利鹏向《21CBR》表示。

姚光华说,关于AI Agent,去年李飞飞博士团队写了七八十页的论文,团队每个成员都要读,大家最后总结的一句话,是“从感知到智能”。

其将Agent划分为两类,陪伴类Agent,主要为用户提供情绪价值,服务类的,则提供智能价值,二者合而为一,再多一层时间价值,让用户效率提升。

由此,对话式AI引擎所推动的对话式Agent,横跨模态感知和模态融合,是吸收以上三重价值的载体。

技术革新,转瞬间天翻地覆。

和利鹏援引OpenAI产品经理所说,“AI时代,只要想通60%,产品就应该发布”,认为产品的发布必须紧跟技术走,及时进入市场检验,再根据反馈不断迭代。

“现在这个版本,虽然不是任何场景都万能,但用户体验已经达标。未来我们会继续做好功能的横向拓展。”姚光华表示。

DeepSeek引爆赛道,声网团队专攻音频细分方向,至少可以喝到汤。


“声网发布对话式AI引擎,DeepSeek开口说话 对话式AI引擎,到底能做点啥?” 的相关文章

光迅科技:Deepseek应用将推动高速光模块需求

光迅科技:Deepseek应用将推动高速光模块需求

金融界4月2日消息,有投资者在互动平台向光迅科技提问:您好,请问deekseep的崛起对公司有哪些利好?公司芯片能否用在deekseep上是否有合作?公司回答表示:Deepseek的广泛应用将有力推动...

北京首个!顺义基础教育领域部署DeepSeek大模型

北京首个!顺义基础教育领域部署DeepSeek大模型

据北京顺义区消息,近日,顺义在北京市基础教育领域率先部署DeepSeek-R1人工智能大模型,以人工智能促进教育高质量发展,开启顺义智慧教育新篇章。顺义教委相关负责人表示,DeepSeek在教育领域的...

DeepSeek鲶鱼效应,掀起AI上车狂潮|封面故事:AI汽车赛道起跑

DeepSeek鲶鱼效应,掀起AI上车狂潮|封面故事:AI汽车赛道起跑

汽车纵横全媒体最近DeepSeek狂潮席卷全球,掀起了新一轮汽车行业企业AI热潮。它打破了传统大模型依赖大算力的路径,加速AI技术普及和普惠。AI赋能汽车全价值链,已成为驱动汽车智能化变革的核心引擎和...

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

“数智行动” 下的平安人寿:借助DeepSeek,重塑业务格局

在数字化浪潮席卷全球的当下,国家大力倡导发展“新质生产力”,加速推动产业数字化、智能化转型。作为保险行业的领军企业,平安人寿紧抓时代机遇,拥抱技术革新,率先开启“数智行动”,积极推进DeepSeek模...

智能宣教篇丨快速写新闻、数字人互动,DeepSeek运用到宣教领域了!

智能宣教篇丨快速写新闻、数字人互动,DeepSeek运用到宣教领域了!

从信息传递到资源整合从单一宣传到多元服务数据驱动、智能分析、精准触达AI大模型让宣教工作更加数智化来看看具体实践场景及案例~算法推荐活动+数字人上岗科普公众参与度粘性又深了……快速生成新闻稿+智能校对...

床垫界也有“DEEPSEEK”?慕思床垫AI升级引发全球科技圈关注

床垫界也有“DEEPSEEK”?慕思床垫AI升级引发全球科技圈关注

在DEEPSEEK爆火,各式各样的AI技术被嵌入生活中各种场景的当下,一场关于“睡眠”的智能化革命悄然升温。近日,在全球消费电子领域的“风向标”CES 2025展会上,慕思床垫凭借最新发布的...