开云 (集团) 官方网站 Kaiyun 登录入口

欧洲杯体育基于科大讯飞的声息复刻技艺-开云 (集团) 官方网站 Kaiyun 登录入口

发布日期:2025-06-28 07:28    点击次数:179

欧洲杯体育基于科大讯飞的声息复刻技艺-开云 (集团) 官方网站 Kaiyun 登录入口

智东西

作家 | 程茜

剪辑 | 漠影

让《长安的荔枝》男主角李善德躬行推选我方的电视剧是什么体验?

这段让东谈主难辨真假的音频并非信得过出自李善德之口,其应用的恰是科大讯飞近期升级的声息复刻技艺,李善德痛斥右相的段落中,声调拔高,语速加速,声息复刻技艺呈现的李善德推选《长安的荔枝》音频中,不仅将声线高度契合,况且把语音中包含的心思也复刻得相称到位。值得注重的是,这段AI“李善德”的学习素材仅需不到10s。

旧年,讯飞星火App的小星畅聊里就上线了一句话声息复刻功能,如今,讯飞星火新版声息复刻功能也已更新,东谈主东谈主齐可领有同声线的数字分身。同期,新一代的声息复刻才略也已谨慎上线讯飞开放平台,开垦者可通过API进行接入和调用。

在App中创建声息,用户只需要聘请性别,朗诵一句话,就不错快速生成自界说声息,并与之进行对话。

当作AI语音王者,科大讯飞在语音技艺界限的深耕,以及在智能驾驶、老师等东谈主机交互场景的平庸应用,照旧使其成为群众语音界限的头部企业,其语音干系技俩不仅两次获取国内常识产权界限的最高奖项中国专利金奖,同期还斩获国度科学技艺跨越奖一等奖。

在这一布景下,科大讯飞声息复刻技艺的背后到底有哪些黑科技?语音技艺将带给科技行业什么样的念念象空间?智东西将从讯飞星火App的干系功能体验启程,找到这些问题的谜底。

一、秒级自界说AI发音东谈主,蜡笔小新、哪吒跨时空一样

如今更逼近东谈主类日常一样的语音交互模式,险些照旧成为聊天机器东谈主的必备功能。

讯飞星火App的语音通话功能中,不仅支持其内置的14位发音东谈主与用户运动对话,还不错通过一句话创建属于我方的发音东谈主。

不错看到,App中照旧预设了14个发音东谈主,包含广大话、英文、方言、日语、俄语等多种语音包。

念念要我方创建发音东谈主的流程也极为陋劣,用户只需聘请性别,然后左证指示朗诵屏幕上的一句话,恭候几秒钟就能创建奏效,同期为了让其更稳妥用户的使用习尚,还能添加相应东谈主设。

底下有几个案例来感受一下一句话声息复刻技艺的惊艳后果,用这项技艺对用户熟知的影视剧脚色、动漫东谈主物声息进行了复刻,通过对比,咱们不错更为直不雅地感受到其声息合成的相似度与准确度。

科大讯飞的声息复刻技艺还让两大经典影视剧中的甄嬛和佟掌柜来了一场世纪一样,当AI用《甄嬛传》中甄嬛的复刻声线说出《武林传奇》佟掌柜的经典台词时,仅需不到6s的音频即可顷刻间让《武林传奇》资深不雅众来了一波穿越。

其合成音频中,不仅复刻了甄嬛的声线,口吻也十分纯粹,诉说流程衔尾当然运动。

第三是动漫形象,基于科大讯飞的声息复刻技艺,哪吒和蜡笔小新终明晰跨时空一样。

通过不到7s的音频素材进行学习,就不错复刻蜡笔小新的声息,并让其准确说出哪吒的经典打油诗。

同期,哪吒也不错启齿说蜡笔小新的经典台词,与其宠物小白隔空一样,复刻的音频中,既保留了哪吒的独到声线,还有其罕见的尾音上扬特征。

这些音频的终了后果,有的仅需要原脚色不到5s的音频就能终了,且不错看出上头几段音频齐莫得出现明显的卡顿,还复刻了声调上扬、语速、话语节律等狭窄的特征。

二、从音色到停顿、发音运动当然,打造三阶段头绪化语音建模框架

关于这些长远东谈主心的影视脚色,用户在一些更为细节的发音特征上概况感知并不是很热烈,但在讯飞星火App自界说创建声息的场景中,用户对发音东谈主复刻后果的条目更高,这对声息复刻功能淡薄了更大挑战。

因此念念要终了“一句话声息复刻”的背后,需要濒临三大要害贫瘠:怎样从一句话中精确提真金不怕火用户发音的多种秉性、怎样保证声息相似、怎样准确还原用户的停顿、发声、重音习尚以及口癖等。

在此基础上,科大讯飞为个性化的语音合成打造了“三阶段头绪化语音建模框架”,试图将用户输入一句话音频的多样声息书息齐捕捉到位。

具体来看,该框架具体分为三个阶段,通过星火底座大模子精确捕捉发音步伐和韵律特征、在音色复原阶段解耦并重构声学特征、通过声码器复原高保真波形。

传统声息复刻技艺常常需要数小时致使数十小时语音样本进行熟识,而基于星火语音大模子底座才略,其不错快速从短时间音频中索求语音中的基础元素。

其第二个阶段的实质恰是通过将语音的音色属性从复杂的夹杂信号中剥离出来,并按照野心需求从头组合要害特征,以提高音色还原的准确性。

第三个阶段中的高保真波形复原,能够尽可能还原原始音频的时域细节、频谱特征和动态界限。

据了解,这套语音建模框架盘曲语义表征,收受mel VQ-AE模子(Mel频谱向量量化自编码器)聚首语音自监督预熟识编码器,并引入音色最小互信息拘谨,能解耦出音色无关的闹翻语义token,终明晰发音内容与音色特征的可控分离,并不错升迁语义大模子的建模隆重性。

同期,让合成声息更为当然还有一大要害是,发音需运动且音色一致,因此在音色解耦表征的基础上,科大讯飞进一步通过音色增强以及强化学习,来终了声息复刻的东谈主机难辨。

其中,音色增强是指在声学模子中,盘问东谈主员会通全局声纹镶嵌与局部帧级音色编码,索求细粒度音色特征,并构建声纹空间语义一致性蚀本函数,升迁音色复原的相似度;主若是通过语音鲁棒性评价模子和东谈主工标注构建偏好数据集,收受基于DPO的强化学习计谋升迁合谚语音的隆重性和当然运动度。

在这些综相助用下,科大讯飞的语音合成技艺照旧不错作念到,只需一句话灌音就能圆善捕捉用户喉腔共识、口音秉性、气味流转等发音特征,并精确还原用户的停顿习尚、神色革新和呼吸节律。

基于此材干达到真东谈主难以分裂的复刻后果,为车载语音交互系统、个性化智能客服、智能体交互的应用场景绽放更大念念象空间。

三、屡次拿下业界国度级大奖,横纵布局加速语音技艺落地

一直以来,语音齐是东谈主类最当然的一样样式,因此业界一直围绕着模拟东谈主类对话流程、使机器能够剖析并呈文东谈主类语音指示进行探索。

当作国内AI界限国度队,科大讯飞早在2011年就肩负起语音及语言惩办国度工程践诺室(后升级为工程盘问中心)的重担,并成为群众语音技艺界限的头部玩家。

时于本日,科大讯飞在语音界限照旧硕果累累,最直不雅的数据即是,本月,科大讯飞凭借“基于时延推断的回声甩掉设施及装配”专利入选第二十五届中国专利金奖技俩名单,这亦然其第二次获取这一国内常识产权界限的最高奖项,同期亦然安徽省独逐一家两次获取中国专利金奖的单元。

此外,旧年其“多语种智能语音要害技艺及产业化”技俩还斩获国度科学技艺跨越奖一等奖。

在技艺深耕之下,科大讯飞不仅终明晰在语音识别、语音合成界限的准确度、识别语种、相似度等各项性能的纵向升迁,还横向拓宽了语音技艺的应用场景,从识别、翻译到合成,以及智能驾驶、智能客服、老师等诸多场景。

旧年9月,科大讯飞在语音识别界限的赛事CHiME-8夺冠,并终了五连冠。语音识别初次终了宇宙地级市方言全遮掩,包括288个地市202种方言。

此前科大讯飞谨慎发布的星火语音大模子,终了74个语种、方言免切换对话;且左证果真业务构建的语音输入场景测试集,星火语音大模子37个语种语音识别后果率先OpenAI发布的开源语音识别模子Whisper-V3.5。

同期其能在强打扰场景下终了精确语音识别,在两东谈主叠混场景、三东谈主叠混场景中庸-5dB高杂音场景中的语音转写后果远超Whisper和Gemini。

在此基础上,星火语音大模子照旧深度期骗在多样东谈主机交互场景中,如智能座舱、老师等诸多界限。

可见语音技艺的攻关非一日之功,在技艺深耕与场景应用上的双重发力,使得科大讯飞的语音技艺正在群众演出着愈发报复的脚色。

结语:更当然运动的语音交互,正扩宽AI应用场景

语音交互使东谈主们不错通过话语来操作树立和获取信息,无需手动输入或操作复杂的界面。如今跟着技艺的发展,语音识别和合成技艺为聊天机器东谈主等AI器具赋予了当然交互才略,使其与用户的一样愈加运动。

与此同期,企业也在不停探索新的算法和模子欧洲杯体育,在盘曲语音识别、合成准确率的同期,拓宽其应用场景,使得语音与当然语言惩办、计较机视觉等技艺互相会通,以鼓吹AI的发展,而科大讯飞在技艺会通与场景落场地面的累积,已展现出权贵的竞争力。