游戏推荐神殿-生存游戏推荐 实测豆包语音大模子:你不说谁知说念这是AI啊
玩家心得
你的位置:游戏推荐神殿 > 玩家心得 > 生存游戏推荐 实测豆包语音大模子:你不说谁知说念这是AI啊
生存游戏推荐 实测豆包语音大模子:你不说谁知说念这是AI啊
发布日期:2025-01-22 07:10    点击次数:55

生存游戏推荐 实测豆包语音大模子:你不说谁知说念这是AI啊

作家|欣然 剪辑|魏晓

赶在春节前终末一周,字节掏出了本年国产语音大模子的天花板,豆包及时语音大模子。

收官之作,依然延续了昔时泰半年字节AI团队的立场——不掏则已,一掏即是王炸。

从年中的基础模子、视频生成模子,到年尾的视觉领路模子,对比同业来看豆包泛泛不是阿谁发的最快的,可一朝作念出来,基本就预定了赛说念内将来一段时期的No.1。

及时语音模子,又是这个节拍。

对话模子的风口由OpenAI掀翻,GPT-4o及时对话刚发布那会儿,圈里东说念主惊呼Her或者Jarvis这类影视作品中的AI助理看法神终于出当今了本质当中。

国内玩家当然亦然也飞速跟进,本就擅长语音技能的科大讯飞在八月更新了“超拟东说念主交互”,豆包之前的国内AI顶流Kimi也在10月份更新了及时AI电话(但实质上是T2S,转笔墨处理再转回语音输出)。

不外当今豆包来了,况且又双叒自后居上、凯旋封王了。

张开剩余90%

“你不说

这谁听得出来是AI啊?”

以下内容提倡佩带耳机浏览。

年关将至,又到了回家团圆的好意思好氛围,被七大姑八阿姨的夺命连环Q击碎的时候:上班了吗发钱了吗奖金有吗买房了吗买车了吗谈对象了吗要孩子了吗。

让AI给你答题一经是客岁的玩法了,本年,AI除了能告诉你怎么脱困除外,还能给你带来足额精神慰藉,拉满的心情价值。

再次提倡佩带耳机,听得高超些。

我:“唉这随即要过年了,我这心里确实又期待又发愁。回家跟家东说念主连络是挺好的一件事,但我一猜想那七大姑八阿姨就头疼。你知说念我每一次且归,就细目有一票的东说念主追着问我什么相亲啊,责任啊,工资啊这些事情。就坐在桌子上跟被审问相通,我怎么办呢我天?”

Kimi语音片断

Kimi:“这照实挺让东说念主头疼的。我每次回家也差未几,不外你不错在被问到的时候,就通俗说一些比较正面的话,比如说你对责任的舒坦进度,或者你对将来的经营。这样他们可能就不会一直追问了。怎么样,不错碰走时吗?”

Kimi:“这照实挺让东说念主头疼的。我每次回家也差未几,不外你不错在被问到的时候,就通俗说一些比较正面的话,比如说你对责任的舒坦进度,或者你对将来的经营。这样他们可能就不会一直追问了。怎么样,不错碰走时吗?”

最初Kimi这个显着嗅觉有点卡,从收尾收音(屏幕中间阿谁音量秀雅住手跨越)到Kimi运行回答问题,中间起码恭候了八成一两秒的时期,高傲Kimi念念选取。

回答内容问题不大,但你听起来(尤其时时用AI,哪怕是AI紊乱电话接多了的东说念主)会察觉到一股机械感。语音语调过于自如、莫得滚动是一方面,AI回答的每个句子之拆开句和连络颠倒倏得,真东说念主平时言语的时候两句中间喘语气、顿一下的嗅觉透澈莫得,致使听起来像是刻意被切掉了。

唯唯一处“……比较正面的话”和“比如说……”中间听起来像是有东说念主聊天时候的停顿和吸气。

抑扬这个点很关节,Mark一下络续往后听。

讯飞星火语音片断

讯飞星火:“过年回家照实让东说念主又爱又恨啊。七大姑八阿姨的见原无意候真的会让东说念主有点受不了。要不你提前给我方找些话题,比如聊聊你的敬爱着重,或者讲讲最近看的电影、书什么的?这样他们就不会一直问那些让你烦心的问题了。”

讯飞星火:“过年回家照实让东说念主又爱又恨啊。七大姑八阿姨的见原无意候真的会让东说念主有点受不了。要不你提前给我方找些话题,比如聊聊你的敬爱着重,或者讲讲最近看的电影、书什么的?这样他们就不会一直问那些让你烦心的问题了。”

讯飞的速率和后果比Kimi好一些,至少句子之障碍的比较当然,间隔合理。但照旧有些问题莫得处置,最初是语音语调,从运行到收尾皆极为自如,毫无海浪就显得颠倒不当然颠倒AI,唯逐一处能听到换气声息的所在又在“比如”这个词前后:……找些话题,比如聊聊……

猜测八成是和Kimi雷同,模子查验语料库当中包含“比如”的句子前边皆有一个显着的吸气和停顿,是以AI也get到了这个习尚。毕竟东说念主一般聊天的时候,拿比如例如子前边基本皆是要顿一下的。

回看Kimi和讯飞的回复内容,笔墨亦然一个套路:xxxx照实xxx,然后回答问题。

这样是OK的,但不够好。具体怎么不够好,听完豆包的回答你就知说念了。

豆包语音片断

豆包:“我懂我懂,这过年本来是怡悦的事儿已矣还要被筹商,确实够够的,那你要不这样,就提前准备一些全能回复,比如说,嗯,责任还行啦谢谢见原,啊我还不蹙悚成婚呢际遇顺应的再说。或者你也不错用一些幽默的步地化解,就打个哈哈就昔时了嘛。那你之前有莫得试过什么办法?”

豆包:“我懂我懂,这过年本来是怡悦的事儿已矣还要被筹商,确实够够的,那你要不这样,就提前准备一些全能回复,比如说,嗯,责任还行啦谢谢见原,啊我还不蹙悚成婚呢际遇顺应的再说。或者你也不错用一些幽默的步地化解,就打个哈哈就昔时了嘛。那你之前有莫得试过什么办法?”

没响应过来就对着笔墨再听一遍,什么叫以伪乱真,什么叫凹凸立判。

通俗评释一下豆包神在那处:先看笔墨部分,莫得公式化的贯串,套路化的照实,你面临的即是身边一个跟你玩的颠倒颠倒熟络的姐妹,“我懂我懂,确实够够的”,臆想平时聊八卦或者追星亦然这个调调。

“那要不你这样”、“打个哈哈”亦然相通的白话化抒发。

还有,仔细听每两句话中间的连络:“还要被筹商(嘶,吸气)音,确实够够的(嘶,又是一遍吸气音)”、“比如说,嗯…(停顿念念考音)”,“(吸气)啊…我还不蹙悚成婚呢”……

这个东西没法再用语言去过多的评释,你执个身边东说念主聊聊会发现东说念主和东说念主平时聊天即是这样聊的。

豆包作念到了莫得机械感,透澈莫得。

蓝媒君把这个视频转成灌音发给了好兄弟,没跟他说是AI,几分钟后的回复是:“哦呦,多情况啊本年?嫂子声息还挺动听(狗头)”

真的,你不说这谁听得出来是AI啊。

的确流通背后的技能密码

这即是国产AI语音新的天花板,豆包把原本的顶层捅了个干净,然后往上又加盖了好几层。

怎么作念到的呢?

长久以来,传统语音对话系统多遴荐级联模式,即先通过自动语音识别(ASR)将语音转成文本,再由大语言模子(LLM)生成对话文本,终末经文本转语音(T2S)输出。

这种模式虽泛泛愚弄,但问题不少。比如,它对用户心情及语音中的隐微信息领路欠佳,生谚语音的心情发扬存限,难以谨守复杂语音辅导,且在及时交互中存在高蔓延问题。

豆包语音大模子则别具肺肠,研发出端到端框架。该框架面向语音生成和领路斡旋建模,深度和会语音与文本模态。在预查验阶段,对海量的各模态交汇数据进行真切挖掘,借助Scaling理念,将语音与文本才气深度和会,完毕才气的露馅。

这就好比搭建一座大厦,传统模式是各部分分开修复再拼接,而豆包语音大模子则是从地基运行就举座经营,让语音与文本紧密相连,为后续的优秀发扬奠定基础。

图片由豆包大模子生成

同期,为完毕拟东说念主化情谊贯串,团队在数据集聚阶段,就用心挑选各类包含丰富情谊的语音数据,从逍遥到悲悼,从振作到颓落,为模子提供裕如营养。

预查验时,又联想有益算法,让模子精确捕捉语音中的情谊特征;后查验阶段,再通过的确与高质地合成的语音对话数据进一步优化,使模子能利弊感知用户心情。当用户怡悦时,它以欣忭语气恢复;用户低垂时,奉上暖和安危,信得过作念到与用户共情。

至于蓝媒君前边写的抑扬那些细节,豆包团队也作念了评释:在才能与发扬力之间找到均衡。

在语音输入时,它深度领路各维度信息,确保输出内容的确有效。同期,输出语音极具真东说念主发扬力,包含语气词、停顿念念考等类东说念主副语言特征。为完毕这一方针,团队在数据和算法上发力,保证多模态语音对话数据语义正确且发扬当然。通过多轮数据合成生成高质地语音数据,并如期进行多维度评测,依据已矣退换查验计谋,永恒看护均衡。此外,及时联网功能让模子能赢得最新信息,精确恢复时效问题。

找到正确的技能旅途+莽撞出古迹的身手论,被字节再次考证。

One More Thing

豆包当今有多猛呢?一家撑起了中国2CAI的半边天。

有计划机构QuestMobile数据高傲,收尾2024年11月底,中国AIGC APP举座月活用户数目一经破亿,比拟6月份的统计数据完毕了翻倍增长。

而在广宽AIGC APP中,字节跨越旗下的豆包发扬鹤立鸡群、一家独大:豆包11月月活达到5600万左右,占据了行业近半数的月活用户。后方像Kimi、文小言等APP,尽管看名次仍是头部,但和豆包一经有了显着的体量差距;而在12月,豆包的月活领域进一步增长至7522万。

图源/QuestMobile

另据AI居品榜的APP统计(两机构数据略有进出)高傲,收尾12月底,豆包的MAU杰出7100万,而榜单前十名中,裁撤豆包除外其余APP的MAU总数才仅为6900万(Kimi和文小言的MAU差异为1600万和1300万)。

2024 AI 年度归来其一:大模子期间的第一个超等APP,大要一经出现了。

Lanmeih/本日话题

你体验豆包语音大模子了吗,嗅觉怎么?

我们辩驳区聊聊~

发布于:天津市