结果:找到“R 语音”相关内容1000个,排序为按回复时间降序,搜索更多相关帖子请点击“高级
280家上市公司年报数字化转型指标关键词2010-2021:数字货币绿色计算虚拟制造增强现实
6 个回复 - 1668 次查看 280家上市公司年报数字化转型指标关键词2010-2021:数字货币绿色计算虚拟制造增强现实基于年报测度数字化的论文在中文顶刊已有有趣的研究发表,我们从深交所、上交所下载2010-2021年上市公司年报,提取MD&A部分,基于 ...2022-10-21 15:24 - yusb - 现金交易版
280家上市公司年报数字化转型指标关键词2010-2021:数字货币绿色计算虚拟制造增强现实
3 个回复 - 832 次查看 280家上市公司年报数字化转型指标关键词2010-2021:数字货币绿色计算虚拟制造增强现实机器学习NLP基于年报测度数字化的论文在中文顶刊已有有趣的研究发表,我们从深交所、上交所下载2010-2021年上市公司年报,提取MD ...2022-10-21 15:21 - yusb - 现金交易版
上海北京南京成都杭州工农中建交通光大华夏门宁波平安等银行数字化转型综合指数面板数
2 个回复 - 627 次查看 上海北京南京成都杭州工农中建交通光大华夏门宁波平安等银行数字化转型综合指数面板数据 (2012-2021年)1、数据来源:根据银行公布资料进行整理统计 2、时间跨度:2012-2021年3、区域范围:50+银行4、指标说明 ...2022-10-17 09:28 - yusb - 现金交易版
一个不错的小工具,把文字轻松转成语音简单啊
1 个回复 - 537 次查看 一个不错的小工具,把文字轻松转成语音简单啊2019-7-25 16:31 - zewushui - 跳蚤市场
谁有简单的文字语音diama可以发我看看我学习一下
2 个回复 - 430 次查看 谁有简单的文字语音diama可以发我看看我学习一下2019-7-10 11:35 - ad6688 - 跳蚤市场
工作中要用到快速录音转文字和识别成语音带音乐的有简单的吗
4 个回复 - 866 次查看 工作中要用到快速录音转文字和识别成语音带音乐的有简单的吗2019-6-8 21:33 - 4548237 - 跳蚤市场
需要一个文字转成语音的软件谢谢
4 个回复 - 1021 次查看 需要一个文字转成语音的软件谢谢2018-8-18 11:47 - 因他暖 - 跳蚤市场
要一个可以吧一万字以内的文字转成与语音的软件 最好可以加音乐
2 个回复 - 1019 次查看 要一个可以吧一万字以内的文字转成与语音的软件 最好可以加音乐2018-8-8 19:34 - 路人假不同意 - 跳蚤市场
需要一个把文字转成语音的软件
7 个回复 - 1099 次查看 需要一个把文字转成语音的软件2018-8-8 19:25 - 权利几年 - 跳蚤市场
语音识别和智能家居控制开发套件实验
1 个回复 - 516 次查看 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智 ...2021-12-23 21:23 - Tiger-like - 现金交易版
高斯混合模型算法+基于SKLearn的GMM聚类+基于GMM的语音识别项目用Python
1 个回复 - 667 次查看 高斯混合模型算法+基于SKLearn的GMM聚类+基于GMM的语音识别项目用Python 1.基于GMM的语音识别项目代码用 Python 2.基于 SKLearn的GMM聚类代码用 Python 3.高斯混合模型GMM:算法步骤+优化pdf ...2021-7-5 20:49 - Mujahida - 现金交易版
数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码
1 个回复 - 916 次查看 数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码,太原理工学习资料 更多更详细的内容,请参考下面的截图说明为准!! 数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码 数字语音处理及MATLAB仿真 ...2022-2-18 20:03 - Lamarr-202110 - 现金交易版
语音信号处理实验教程(梁瑞宇)代码 in Matlab
1 个回复 - 817 次查看 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验 ...2022-2-18 20:08 - Lamarr-202110 - 现金交易版
文字转语音怎么实现?
1 个回复 - 622 次查看 平日里闲来无聊想要做一个视频,就好比像我这种声音不太好听的人,不想用自己的声音来配音。这时我们就可以借助第三方工具来完成,使用文字转语音助手帮助配音就会省时省事多了。个人觉得特别适合自媒体人使用 ...2019-5-6 15:10 - 转换达人 - 跳蚤市场
德语语音教程
9 个回复 - 2182 次查看 很经典的一本德语语音教材,里面的图片连嘴型、舌头的位置标注的都很清楚,值得对德语有兴趣的同学下载学习交流。2011-7-9 21:04 - ihc7788 - 外语学习
求剑桥国际英语语音教程 视频的更好
7 个回复 - 2777 次查看 最好把教程也发上来2014-1-23 15:41 - 鲛人泣月 - 求助成功区
AI语音行业紧缺,全栈语音工程师究竟有多难?
1 个回复 - 2115 次查看 语音识别基础知识 【数学与统计学】 数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是语音识别的基础学科。 【声学与语言学】 声学基础、理论声学、声学 ...2019-7-9 13:47 - 放光的房子君 - Forum
设计基于语音识别和图像识别的手语翻译软件破茧
2 个回复 - 2197 次查看 价值主张:破茧是一款帮助听障人士和健听人士交流的软件。其使用图像识别、文字识别、语音识别、语音合成和机器翻译API。[/backcolor] [/backcolor] 听障人士现状手语类型多看不懂、听不到、说不出是大多数听障人士 ...2021-5-1 19:36 - G-2000 - Forum
自动标注语音
4 个回复 - 2268 次查看   SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语 ...2021-3-31 18:55 - olympic - Forum
深度学习-语音识别实战(Python)
4 个回复 - 3627 次查看 深度学习-语音识别实战(Python) 网盘地址:https://pan.baidu.com/s/1vWTSaG7a86DB0kGNWhN1oQ提取码: cfcm 备用地址(腾讯微云):https://share.weiyun.com/aNF2L1IS 密码:ivfk5p 课程概述 基于深度学习的语 ...2021-2-5 10:17 - 大帅哥很帅的 - Forum
解析深度学习+语音识别实践 python
6 个回复 - 3022 次查看 用python做语音识别实践的书,希望能帮到你。2020-1-31 22:14 - haipeng12345 - Forum
语音拣选在物流中心应用】
9 个回复 - 1830 次查看 语音拣选解决方案已经逐步替代传统物流中心纸质和RF驱动的作业,彻底实现系统与操作员工的双向实时对话,快速找到货位,作业信息快速反馈系统,简化工作流程,彻底解放双手,同时也释放双眼(不需要去看显示屏和作业单),提高 ...2012-4-24 18:26 - 大师坑 - 天津工程职业技术学院管理科学与工程系
语音拣选在医药物流中心应用案例】
10 个回复 - 405 次查看语音拣选在医药物流中心应用案例】工作流程:仓储人员携带语音接收器➠无线接收WMS工作指令➠语音接收器翻译工作指令➠编码成工人可听见及理解的声音➠执行命令➠工人向语音接收器确 ...2012-4-24 18:34 - 大师坑 - 天津工程职业技术学院管理科学与工程系
【利群集团语音拣选技术应用】
7 个回复 - 1267 次查看 【利群集团语音拣选技术应用】利群集团语音拣选用于冷链、零售等物流的多个环境,使用语音拣选彻底替换RF的手持终端后:工作效率的提升28%,差错率降低到几乎为零,解放双手,提升了作业安全,减少商品损耗,降低员 ...2012-4-24 18:31 - 大师坑 - 天津工程职业技术学院管理科学与工程系
周礼键君:高盛投资语音金融信息平台
3 个回复 - 1255 次查看 周礼键君:高盛投资语音金融信息平台 Kensho可自动完成以往依靠大量人力的研究,回答数百万复杂金融问题 高盛(Goldman Sachs)成为一家金融分析初创公司的最大投资者,后者让金融机构挖掘大数据。此举凸显出华尔街 ...2016-6-19 10:15 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1283 次查看 周礼键:谷歌旗下DeepMind在语音生成领域取得突破 语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的语音与人声的品质差距缩小了一半。 周礼键:谷歌旗下DeepMind在语音生成领域取得 ...2016-11-14 23:12 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1137 次查看 周礼键:谷歌旗下DeepMind在语音生成领域取得突破 语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的语音与人声的品质差距缩小了一半。 周礼键:谷歌旗下DeepMind在语音生成领域取得 ...2016-11-22 10:54 - 周礼键 - 休闲灌水
中国移动语音行业市场研究报告(最近几年)
30 个回复 - 2975 次查看 中国移动语音行业市场研究报告2009-12-7 15:16 - ckwinpk - 行业分析报告
基于语音交互的供应链智能报表应用研究
0 个回复 - 557 次查看 1 论文标题:基于语音交互的供应链智能报表应用研究 2 作者信息:洪芳华, 徐弘道:国网上海市电力公司物资公司,上海;顾华骏:上海欣能信息科技发展有限公司,上海;董凤娜, 肖 锋:上海久隆企业管理咨询有限公司 ...2022-9-19 08:58 - 2019hansi - 论文版
【独家发布】2022年中国智能语音行业市场规模与发展前景分析 智能语音进入加速应用阶段【组图】
1 个回复 - 831 次查看 行业主要相关上市公司:科大讯飞(002230)、百度(09888.HK)、腾讯(00700.HK)、搜狗(SOGO.NYSE)等。 本文核心数据:全球智能语音市场规模、中国智能语音市场规模、中国智能家居市场规模、中国智能网联车渗透率 智能语 ...2022-8-17 09:41 - 流水本无意 - 数据分析与数据挖掘
百度专利汽车类应用技术专利资料78个数据集:语音合成无人驾驶车辆转向控制自动驾驶模
0 个回复 - 489 次查看 百度专利汽车类应用技术专利资料78个数据集:语音合成无人驾驶车辆转向控制自动驾驶模拟车辆检查链路健康视觉的驾驶场景生成器 (英文): 包含的内容如下: ’10用于执行主机矩阵操作的存储器访问和计算指令 ...2022-8-14 20:46 - yusb - 现金交易版
从文本到语音:概述
0 个回复 - 672 次查看 文本转语音软件将数字文本转换为语音。例如,可以突出显示文本,按下播放按钮,然后读者大声朗读内容。TTS 程序中提供的附加功能和声音有所不同,但核心前提保持不变。它们允许您对数字文本进行听觉而非视觉消费。TT ...2022-7-22 16:20 - 时光永痕 - 数据分析与数据挖掘
请问用matlab做语音识别最好用什么算法呀 有没有推荐资料
0 个回复 - 2461 次查看 {:shot11:} 真的很需要!!研究了很久了!!2022-6-20 22:05 - onjoneey - Forum
matlab语音信号分析与合成电子书和源程序
0 个回复 - 682 次查看 2022-6-20 21:57 - onjoneey - 新手入门区
教你怎样用python进行语音识别
0 个回复 - 526 次查看 作者 | 小隐 来源 | 淘气面包 原文 | 教你怎样用python进行语音识别 网上找到一些例子,有一些成熟的模型,可以将语音转成文字。例如Cloud Speech API,但是需要你使用google云平台的前提。 speech recognition 对于 ...2022-6-9 11:43 - AIU人工智能学院 - 数据分析师(CDA)专版
22 : 语音物象(精神物象之四)
0 个回复 - 554 次查看 我把语音物象划归精神物象范畴,是由于语音符号都是有含义的,它们是语言社区意愿意志赋予各个音节象征不同事物,达到词义物象与实体对象的思维联系。这完全是人类社会一种精神现象。声音的物理属性并不能排斥语音的 ...2022-6-6 13:10 - 陈才天 - 哲学与心理学版
【独家发布】前瞻产业研究院:2021年全球人工智能市场发展现状分析 机器视觉和语音识别是主要市场
3 个回复 - 4210 次查看 ——原标题:2021年全球人工智能市场发展现状分析 计算机视觉和语音识别为技术层关键 【组图】 人工智能行业主要上市公司:目前国内人工智能行业的上市公司主要有百度百度(BAIDU)、腾讯(TCTZF)、阿里巴巴(BABA)、科 ...2022-3-24 14:00 - 流水本无意 - 数据分析与数据挖掘
求助R语音辅导
1 个回复 - 197 次查看 求助R语音辅导2022-5-23 10:16 - 梦似勿忘 - 求助成功区
利用人工智能实现多视点无声视频语音重建 饲料
0 个回复 - 351 次查看 摘要翻译: 朗读或唇读是从说话者的视觉特征如嘴唇、脸、牙齿和舌头的运动中理解和获得语音特征的技术。它有广泛的多媒体应用,如在监视,互联网电话,并作为一个有听力障碍的人的援助。然而,演讲阅读的大部分工作一 ...2022-3-18 18:20 - kedemingshi - Forum
人工智能实战之语音识别
0 个回复 - 791 次查看 一、课程背景CDA数据分析师人才教育品牌联合海内外知名讲师团队共同打造AI在线学习解决方案。旨在培养AI时代“十字型”技术精英。人工智能工程师课程中,可以让你在家就能学习机器学习全栈课程,零基础入门,学习知名 ...2022-3-8 13:40 - AIU人工智能学院 - 数据分析师(CDA)专版
人工智能如何将语音超越电话
0 个回复 - 3408 次查看 在过去的十年中,通信技术面临着非同寻常的变化。谈到 2020 年,它为新一代利用他们的能力并在未来许多年为企业增加价值树立了新的标杆。语音技术以某种方式与电话联系在一起。由于连接仍然很牢固,语音正以各种方式 ...2022-3-29 16:08 - 时光永痕 - 数据分析与数据挖掘
一种抗噪声的递归深度神经网络回归模型 语音基频轮廓的估计
0 个回复 - 522 次查看 摘要翻译: 语音基频(F0)轮廓是表征语音韵律的一个重要方面,在语音转换、语音合成、说话人和语种识别等语音和口语分析中都有广泛的应用。本文提出了利用深度神经网络(DNN)和递归神经网络(RNN)估计语音F0轮廓的新方法 ...2022-3-14 14:55 - kedemingshi - Forum
Bridgenets:基于递归神经网络的师生迁移学习 网络及其在远程语音识别中的应用
0 个回复 - 400 次查看 摘要翻译: 尽管自动语音识别技术取得了显著的进展,但识别混杂着各种噪声源的远场语音仍然是一项具有挑战性的任务。本文介绍了一种新颖的师生迁移学习方法BridgeNet,它为提高远程语音识别能力提供了一种解决方案。 ...2022-3-6 18:29 - 可人4 - Forum
基于递阶递归神经网络的波形建模与生成 语音带宽扩展网络
0 个回复 - 281 次查看 摘要翻译: 提出了一种用于语音带宽扩展(BWE)的分层递归神经网络(HRNN)波形建模和生成方法。与传统的BWE方法预测频谱参数重构宽带语音波形不同,该方法不使用声码器,直接对波形样本进行建模和预测。受无条件神经音频 ...2022-3-6 18:50 - 大多数88 - Forum
基于上下文感知的递归神经网络的语音去混响
0 个回复 - 223 次查看 摘要翻译: 在本文中,我们提出了一个模型来执行语音去混响,通过估计其频谱大小从混响对应。我们的模型能够通过卷积编码器(它从短的、有界的帧上下文中提取特征)和用于提取长期信息的递归神经网络来提取考虑信号中 ...2022-3-8 09:51 - 能者818 - Forum
鲁棒特征聚类在无监督语音活动检测中的应用
0 个回复 - 208 次查看 摘要翻译: 在某些应用中,例如零资源语音处理或极低资源语音语言系统,收集语音活动检测(SAD)注释可能是不可行的。然而,目前最先进的基于神经网络或其他机器学习方法的监督SAD技术需要与目标域匹配的注释训练数据。 ...2022-4-15 10:00 - 可人4 - Forum
基于CMU-Sphinx4的阿拉伯语语音识别系统
5 个回复 - 728 次查看 2022-4-15 09:54 - 何人来此 - Forum
用CMUSphinx系统进行阿拉伯语语音识别的介绍
4 个回复 - 884 次查看 2022-4-15 09:54 - 可人4 - Forum
Unspeech:无监督语音上下文嵌入
0 个回复 - 421 次查看 摘要翻译: 我们引入了“非语音”嵌入,它是基于对口语上下文特征表示的无监督学习。在没有转录或说话人信息的情况下,通过使用基于上下文和非上下文识别的直接学习目标和负抽样,对多达9500小时的爬行英语语音数据进 ...2022-4-13 21:35 - 何人来此 - Forum
基于向量空间投影的语音深度去噪
0 个回复 - 306 次查看 摘要翻译: 我们提出了一种在非平稳和动态噪声存在的情况下对单个麦克风的扬声器进行降噪的算法。我们的方法受到最近成功的神经网络模型的启发,该模型将演讲者与其他演讲者分开,将歌手与器乐伴奏分开。与现有技术不 ...2022-4-13 19:55 - 能者818 - Forum
域不变语音原始语音特征的对抗学习 识别
0 个回复 - 207 次查看 摘要翻译: 近年来,基于神经网络的声学建模技术在自动语音识别(ASR)性能方面取得了显著的进步。为了使声学模型能够处理大的声学变异性,需要大量的标记数据,而这些标记数据往往是昂贵的。本文探讨了对抗性训练在从 ...2022-4-12 18:50 - nandehutu2022 - Forum
基于远场语音识别的ICD码自动记录
0 个回复 - 353 次查看 摘要翻译: 文档错误增加了医疗保健成本,并导致不必要的病人死亡。作为诊断和计费的标准语言,ICD代码是全世界医疗文件的基础。尽管电子病历的普及,医院仍然见证了ICD错误编码的高水平。在这篇论文中,我们提出了用 ...2022-4-11 21:40 - mingdashike22 - Forum
基于全卷积网络的语音去混响
0 个回复 - 407 次查看 摘要翻译: 本文研究了使用单个麦克风进行语音识别的问题。基于全卷积网络(FCN)在图像处理中的成功应用,我们研究了它对短时傅立叶变换(STFT)图像的增强的适用性。我们提出了两个变体:一个是具有跳过连接的编解码器 ...2022-4-11 16:15 - 何人来此 - Forum
基于生成对抗网络的语音研究 用于鲁棒语音识别的去混响方法
0 个回复 - 419 次查看 摘要翻译: 我们研究了生成对抗网络(GANs)在语音去混响中的应用,以实现鲁棒的语音识别。近年来,GANs已被用于语音增强以消除加性噪声,但仍缺乏对其语音去混响能力的研究,使用GANs的优势尚未完全确立。本文对GaN ...2022-4-11 14:55 - 何人来此 - Forum
使用部分异步麦克风阵列的语音分离 重采样
0 个回复 - 253 次查看 摘要翻译: 我们考虑了由多个空间分离的设备捕获的语音源的分离问题,每个设备都有多个麦克风,并以稍微不同的速率对其信号进行采样。大多数异步阵列处理方法依赖于采样率偏移估计和重采样,但如果信源或麦克风在移动 ...2022-4-11 12:50 - 能者818 - Forum
语音中学习细粒度的分离表示
0 个回复 - 359 次查看 摘要翻译: 学习高维数据的解纠缠表示是当前一个活跃的研究领域。然而,与计算机视觉领域相比,语音处理方面的研究相对较少。在本文中,我们回顾了这方面的两个有代表性的研究成果,并提出了细粒度分离语音表征学习的 ...2022-4-11 08:15 - 何人来此 - Forum
神经网络中音高-重音标注的准确性研究 基于网络的语音合成与去噪效果
0 个回复 - 185 次查看 摘要翻译: 我们研究了噪声语言特征对基于神经网络的日语语音合成系统性能的影响,该系统使用WaveNet声码器。我们比较了一个在训练和测试集中使用人工校正的语言特征(包括音素和韵律信息)的理想系统与其他几个使用 ...2022-4-10 08:30 - 大多数88 - Forum
的低语音失真含噪语音增强 概率几何谱减法
0 个回复 - 371 次查看 摘要翻译: 提出了一种基于概率几何谱减法(PGA)的短时幅度谱语音增强方法。该方法在增益函数中引入了噪声估计的置信度参数,以防止高估和低估噪声的减去,既有效地去除噪声,又防止了语音失真。然后,在合成增强帧之 ...2022-4-9 17:05 - nandehutu2022 - Forum
基于时域GANs的端到端语音驱动人脸动画
0 个回复 - 336 次查看 摘要翻译: 语音驱动人脸动画是利用语音信号自动合成一个会说话的角色的过程。该领域的大部分工作创建了从音频特征到视觉特征的映射。这通常需要使用计算机图形技术进行后处理,以产生逼真的尽管与主题相关的结果。我 ...2022-4-8 09:40 - 何人来此 - Forum
解读DNN输出层激活:一种应对策略 语音识别中的未见数据
0 个回复 - 241 次查看 摘要翻译: 未见数据会降低深度神经网络声学模型的性能。为了处理看不见的数据,采用了适应技术。对于未标记的未见数据,必须在给定已有模型的情况下生成一些假设,作为模型自适应的标记。然而,评估假设的优劣可能是 ...2022-4-7 18:25 - 可人4 - Forum
训练具有截断反向传播的递归网络 语音识别中的时间
0 个回复 - 220 次查看 摘要翻译: 递归神经网络已经成为许多语音和语言处理任务的主要模型。然而,我们对递归网络所能实现的行为和功能类别了解甚少。此外,在训练中使用的启发式使分析复杂化。在本文中,我们研究了在语音识别的背景下,递 ...2022-4-7 16:25 - 何人来此 - Forum
基于指数模型的含噪语音增强 感知小波包中的阈值及自定义阈值函数 域
0 个回复 - 189 次查看 摘要翻译: 针对带噪语音的增强问题,提出了一种基于Teager energy(TE)操作的感知小波包(PWP)系数指数分布建模的阈值确定方法。设计了一个自定义的门限函数,该门限函数基于MU-律和半软阈值函数的结合,将统计导出的 ...2022-4-7 14:15 - nandehutu2022 - Forum
统计参数语音合成的缺点分析
0 个回复 - 478 次查看 摘要翻译: 统计参数语音合成(SPSS)的输出在质量、自然度、说话人相似度和噪声中的可懂度方面明显低于自然语音记录。关于这些缺点的起源有许多假设,但这些假设往往保持模糊,没有经验证据来证实和量化特定缺点是如何 ...2022-4-6 18:45 - 能者818 - Forum
基于对抗性实例的鲁棒语音增强训练 识别
0 个回复 - 239 次查看 摘要翻译: 为了提高深度神经网络声学模型的鲁棒性,本文探讨了在训练语音识别系统中使用对抗性实例的方法。在训练过程中,采用快速梯度符号法生成对抗性示例,对原始训练数据进行扩充。与传统的基于数据变换的数据增 ...2022-4-5 18:10 - nandehutu2022 - Forum
域增强、增强和自动编码器方法的研究 远距离语音识别中的自适应
0 个回复 - 199 次查看 摘要翻译: 训练在近距离语音上的语音识别器不能推广到远距离语音,而且错误率绝对下降可达40%。大多数研究集中在解决远距离语音识别作为一个单独的问题,很少努力使近距离说话的语音识别器适应远距离语音。在这项工 ...2022-4-5 12:20 - mingdashike22 - Forum
强调:一种基于情感音素的语音合成声学模型 系统
0 个回复 - 207 次查看 摘要翻译: 我们提出了一个基于情感音素的语音合成系统声学模型。重点包括音素持续时间预测模型和声学参数预测模型。它使用一个基于CBHG的回归网络来建模语言特征和声学特征之间的依赖关系。为了提高网络的性能,我们 ...2022-4-5 10:55 - 何人来此 - Forum
基于对抗学习的无监督域自适应鲁棒语音 识别
0 个回复 - 362 次查看 摘要翻译: 在这篇论文中,我们研究了对抗学习的使用,以无监督地适应不可见的记录条件,更具体地说,单麦克风远场语音。我们使用未转录的自适应数据使基于神经网络的声学模型适应新的记录条件。在意大利语语料数据集 ...2022-4-4 20:25 - kedemingshi - Forum
调制域Kalman滤波在单耳盲语音降噪中的应用 和去混响
0 个回复 - 416 次查看 摘要翻译: 提出了一种基于调制域Kalman滤波的单声道语音增强算法,对语音和混响的时频对数幅值谱进行盲跟踪。提出了一种自适应算法,在考虑帧间语音动态特性的基础上,通过给定带噪混响语音的对数幅度谱估计语音对数 ...2022-4-3 21:25 - kedemingshi - Forum
天鹅绒噪声的频域变体及其应用 语音处理与合成:附附录
0 个回复 - 502 次查看 摘要翻译: 我们提出了一种新的声码器激励源信号和一种全通脉冲响应,用于合成声音的后处理和自然声音的预处理,用于数据增强。所提出的信号是天鹅绒噪声的变体,天鹅绒噪声是由少量非零(1或-1)元素组成的稀疏离散 ...2022-4-2 13:55 - kedemingshi - Forum
一次说话人自适应的机器语音
0 个回复 - 366 次查看 摘要翻译: 在之前的工作中,我们开发了一个基于深度学习的闭环语音链模型,其中的架构使自动语音识别(ASR)和文本语音合成(TTS)组件能够相互提高性能。这是通过两个部分使用标记和未标记的数据相互教学来实现的。该方 ...2022-4-2 11:00 - 何人来此 - Forum
用策略学习改进端到端语音识别
0 个回复 - 376 次查看 摘要翻译: 连接主义时态分类(CTC)被广泛应用于端到端语音识别模型中的最大似然学习。然而,负最大似然与语音识别中使用的性能指标(如误字率(WER))之间通常存在差异。这导致在训练过程中目标函数和度量之间的不匹配 ...2022-4-1 22:30 - 能者818 - Forum
单转换器打开的多语言端到端语音识别 低资源语言
0 个回复 - 198 次查看 摘要翻译: 基于注意的序列到序列模型将声学、发音和语言模型集成到一个单一的神经网络中,这使得它们非常适合于多语言自动语音识别(ASR)。在本文中,我们通过一个单一的转换器来研究低资源语言上的多语言语音识别, ...2022-3-31 14:20 - 能者818 - Forum
深度上下文:端到端上下文语音识别
0 个回复 - 325 次查看 摘要翻译: 在自动语音识别(ASR)中,用户所说的话取决于她所处的特定环境。通常,这个上下文表示为一组单词n-图。在这项工作中,我们提出了一个新的,全神经,端到端(E2E)ASR系统利用这样的上下文。我们的方法,我们 ...2022-3-30 17:20 - 可人4 - Forum
深度学习-语音识别实战(Python)
1 个回复 - 1505 次查看 深度学习-语音识别实战(Python) 下载地址:https://pan.baidu.com/s/1Le59dsSh2nWkGyBncMNZIw 提取码: 3dd4 基于深度学习的语音识别实战课程主要包括三部分内容: 1.经典论文算法讲解; 2.算法源码解读; 3.项 ...2021-5-12 16:50 - 少年码农 - Forum
EMA控制舌头模型动画研究进展 声-视语音合成
0 个回复 - 266 次查看 摘要翻译: 我们提出了一种三维运动舌模型的动画技术,舌模型是声-视(AV)语音合成器说话头的一个组成部分。该骨骼动画方法是利用一个可变形装置,该装置由电磁成像(EMA)获得的舌运动捕获数据控制,而舌面是从体积磁共 ...2022-3-28 14:40 - 大多数88 - Forum
利用Cycle-GAN实现无并行数据的节奏灵活语音转换 音素后验图序列
0 个回复 - 210 次查看 摘要翻译: 语速是指在一定的单位时间内音素的平均数量,节奏模式是指不同音素在不同语音结构中实现的时长分布。两者都是语音韵律的重要组成部分,对于不同的说话者来说是不同的。循环一致对抗网络(Cycle-GAN)和变 ...2022-3-27 14:15 - nandehutu2022 - Forum
复杂环境背景中的语音遮蔽(语音)语料库
0 个回复 - 309 次查看 摘要翻译: 本文介绍了在Creative Commons 4.0下的一个免费数据集--复杂环境中隐藏的声音语料库(Voices)。该数据集将促进噪声环境下远场话筒语音和信号处理的研究。公开的语音语料库大多由近距离微音的孤立语音组成。 ...2022-3-27 11:15 - mingdashike22 - Forum
基于性能的端到端语音分离代价函数
0 个回复 - 436 次查看 摘要翻译: 最近的神经网络源分离策略试图通过直接处理音频信号的波形来建模音频信号。均方误差(MSE)度量去噪语音波形与地面真值语音波形之间的欧几里得距离,是这些方法的自然代价函数。然而,MSE不是一个知觉动机的 ...2022-3-25 22:55 - nandehutu2022 - Forum
AVA-Speech:一个密集标记的电影中语音活动数据集
0 个回复 - 578 次查看 摘要翻译: 语音活动检测(或端点)是语音识别、语种识别和说话人识别等应用中的一个重要处理步骤。基于音频和视觉的方法已经在各种设置中用于这项任务,通常是针对最终应用而定制的。然而,以前的许多工作报告都是在 ...2022-3-25 11:55 - 可人4 - Forum
增强编码语音的卷积神经网络
0 个回复 - 372 次查看 摘要翻译: 编码后的语音受到远端噪声、量化噪声和潜在传输错误的影响,增强编码语音是一项具有挑战性的任务。在本文中,我们提出了两种后处理方法,分别在时域和倒谱域应用卷积神经网络来增强编码语音,而不需要对编 ...2022-3-24 12:15 - 能者818 - Forum
在鸡尾酒会上倾听:一个说话人独立的人 语音分离视听模型
0 个回复 - 352 次查看 摘要翻译: 我们提出了一个联合视听模型,用于从其他说话人和背景噪声等混合声音中分离单个语音信号。仅使用音频作为输入来解决这个任务是极具挑战性的,并且不能提供分离的语音信号与视频中的扬声器的关联。在本文中 ...2022-3-23 20:15 - 可人4 - Forum
基于变分表达式建模的表达型语音合成 自动编码器
0 个回复 - 388 次查看 摘要翻译: 近年来神经自回归模型的发展提高了语音合成(SS)的性能。然而,由于神经自回归SS系统缺乏对语音的全局特征(如说话人的个性或说话风格)建模的能力,特别是在这些特征没有被标记的情况下,如何使神经自回归 ...2022-3-22 21:00 - 可人4 - Forum
微软2016对话式语音识别系统
0 个回复 - 295 次查看 摘要翻译: 我们描述了微软的对话式语音识别系统,在该系统中,我们结合了基于神经网络的声学和语言建模的最新发展,以推进总机识别任务的最新技术。受机器学习集成技术的启发,该系统使用了一系列卷积和递归神经网络 ...2022-3-22 20:10 - 何人来此 - Forum