结果:找到“语音”相关内容1000个,排序为按回复时间降序,搜索更多相关帖子请点击“高级
2007-2020年上市公司数字化转型数据整理
0 个回复 - 685 次查看 2007-2020年上市公司数字化转型数据整理 根据年报文本数据进行文本分析 剔除否定词汇:非、别、不、没、无、忽、莫、否、没有、还没、毫无、无需、无关。 参考文献 [1]袁淳, 肖土盛, 耿春晓,等. 数字化转型与 ...2022-6-9 15:19 - heshuti - 现金交易版
程序员的数学基础课讲义笔记-统计篇
1 个回复 - 667 次查看 程序员的数学基础课讲义笔记-统计篇 19讲概慨率和统计:编程为什么需要概率和统计.Pdf 20讲概率基础(上):一篇文章帮你理解随机变量、概率分布和朗望值Pdf 21讲概率基础(下):联合概率、条件概率和贝叶 ...2022-3-6 07:18 - Kathy-202109 - 现金交易版
用户研究报告,用户洞察研究集之一
1 个回复 - 699 次查看 用户研究报告,用户洞察研究集之一 00后人群洞察.pdf 2017财经用户分析报告.pdf 2017动漫调研用户分析报告.pdf 2017科技用户分析报告.pdf 2017新浪新间客户端用户发展报告.pdf 2017早幼教行业用户调查报告 ...2022-2-28 12:24 - Mujahida - 现金交易版
语音识别和智能家居控制开发套件实验
1 个回复 - 507 次查看 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智能家居控制开发套件实验 语音识别和智 ...2021-12-23 21:23 - Tiger-like - 现金交易版
高斯混合模型算法+基于SKLearn的GMM聚类+基于GMM的语音识别项目用Python
1 个回复 - 650 次查看 高斯混合模型算法+基于SKLearn的GMM聚类+基于GMM的语音识别项目用Python 1.基于GMM的语音识别项目代码用 Python 2.基于 SKLearn的GMM聚类代码用 Python 3.高斯混合模型GMM:算法步骤+优化pdf ...2021-7-5 20:49 - Mujahida - 现金交易版
数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码
1 个回复 - 897 次查看 数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码,太原理工学习资料 更多更详细的内容,请参考下面的截图说明为准!! 数字语音处理及MATLAB仿真(张雪英 第2版):课件+代码 数字语音处理及MATLAB仿真 ...2022-2-18 20:03 - Lamarr-202110 - 现金交易版
语音信号处理实验教程(梁瑞宇)代码 in Matlab
1 个回复 - 805 次查看 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验教程(梁瑞宇)代码 in Matlab 语音信号处理实验 ...2022-2-18 20:08 - Lamarr-202110 - 现金交易版
基于CMU-Sphinx4的阿拉伯语语音识别系统
5 个回复 - 664 次查看 2022-4-15 09:54 - 何人来此 - Forum
用CMUSphinx系统进行阿拉伯语语音识别的介绍
4 个回复 - 818 次查看 2022-4-15 09:54 - 可人4 - Forum
基于Python自动语音识别代码
0 个回复 - 551 次查看 基于Python自动语音识别代码 更详细的内容,请参考下面的截图说明为准! 基于Python自动语音识别代码 基于Python自动语音识别代码 基于Python自动语音识别代码 基于Python自动语音识别代码 基于Python ...2022-2-8 13:53 - Mujahida - 现金交易版
语音合成(TTS)的发展探寻智能语音行业的现状与未来_37页
1 个回复 - 630 次查看语音合成(TTS)的发展探寻智能语音行业的现状与未来_37页_2mb2021-6-22 17:23 - wangjx_ - 行业分析报告
智能语音赛道-风口已至,全面开花
2 个回复 - 461 次查看 智能语音赛道-风口已至,全面开花2021-5-26 17:48 - gccd - 行业分析报告
深度报告-20210517-华西证券-智能语音赛道_风口已至_全面开花_74页_5mb
1 个回复 - 496 次查看 深度报告-20210517-华西证券-智能语音赛道_风口已至_全面开花_74页_5mb2021-5-27 07:04 - wangjx_ - 行业分析报告
求剑桥国际英语语音教程 视频的更好
7 个回复 - 2733 次查看 最好把教程也发上来2014-1-23 15:41 - 鲛人泣月 - 求助成功区
AI语音行业紧缺,全栈语音工程师究竟有多难?
1 个回复 - 1876 次查看 语音识别基础知识 【数学与统计学】 数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是语音识别的基础学科。 【声学与语言学】 声学基础、理论声学、声学 ...2019-7-9 13:47 - 放光的房子君 - Forum
设计基于语音识别和图像识别的手语翻译软件破茧
2 个回复 - 1925 次查看 价值主张:破茧是一款帮助听障人士和健听人士交流的软件。其使用图像识别、文字识别、语音识别、语音合成和机器翻译API。[/backcolor] [/backcolor] 听障人士现状手语类型多看不懂、听不到、说不出是大多数听障人士 ...2021-5-1 19:36 - G-2000 - Forum
自动标注语音
4 个回复 - 2028 次查看   SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语 ...2021-3-31 18:55 - olympic - Forum
深度学习-语音识别实战(Python)
4 个回复 - 3365 次查看 深度学习-语音识别实战(Python) 网盘地址:https://pan.baidu.com/s/1vWTSaG7a86DB0kGNWhN1oQ提取码: cfcm 备用地址(腾讯微云):https://share.weiyun.com/aNF2L1IS 密码:ivfk5p 课程概述 基于深度学习的语 ...2021-2-5 10:17 - 大帅哥很帅的 - Forum
解析深度学习+语音识别实践 python
6 个回复 - 2780 次查看 用python做语音识别实践的书,希望能帮到你。2020-1-31 22:14 - haipeng12345 - Forum
语音拣选在物流中心应用】
9 个回复 - 1786 次查看 语音拣选解决方案已经逐步替代传统物流中心纸质和RF驱动的作业,彻底实现系统与操作员工的双向实时对话,快速找到货位,作业信息快速反馈系统,简化工作流程,彻底解放双手,同时也释放双眼(不需要去看显示屏和作业单),提高 ...2012-4-24 18:26 - 大师坑 - 天津工程职业技术学院管理科学与工程系
语音拣选在医药物流中心应用案例】
10 个回复 - 370 次查看语音拣选在医药物流中心应用案例】工作流程:仓储人员携带语音接收器➠无线接收WMS工作指令➠语音接收器翻译工作指令➠编码成工人可听见及理解的声音➠执行命令➠工人向语音接收器确 ...2012-4-24 18:34 - 大师坑 - 天津工程职业技术学院管理科学与工程系
【利群集团语音拣选技术应用】
7 个回复 - 1248 次查看 【利群集团语音拣选技术应用】利群集团语音拣选用于冷链、零售等物流的多个环境,使用语音拣选彻底替换RF的手持终端后:工作效率的提升28%,差错率降低到几乎为零,解放双手,提升了作业安全,减少商品损耗,降低员 ...2012-4-24 18:31 - 大师坑 - 天津工程职业技术学院管理科学与工程系
周礼键君:高盛投资语音金融信息平台
3 个回复 - 1224 次查看 周礼键君:高盛投资语音金融信息平台 Kensho可自动完成以往依靠大量人力的研究,回答数百万复杂金融问题 高盛(Goldman Sachs)成为一家金融分析初创公司的最大投资者,后者让金融机构挖掘大数据。此举凸显出华尔街 ...2016-6-19 10:15 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1258 次查看 周礼键:谷歌旗下DeepMind在语音生成领域取得突破 语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的语音与人声的品质差距缩小了一半。 周礼键:谷歌旗下DeepMind在语音生成领域取得 ...2016-11-14 23:12 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1120 次查看 周礼键:谷歌旗下DeepMind在语音生成领域取得突破 语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的语音与人声的品质差距缩小了一半。 周礼键:谷歌旗下DeepMind在语音生成领域取得 ...2016-11-22 10:54 - 周礼键 - 休闲灌水
教你怎样用python进行语音识别
0 个回复 - 492 次查看 作者 | 小隐 来源 | 淘气面包 原文 | 教你怎样用python进行语音识别 网上找到一些例子,有一些成熟的模型,可以将语音转成文字。例如Cloud Speech API,但是需要你使用google云平台的前提。 speech recognition 对于 ...2022-6-9 11:43 - AIU人工智能学院 - 数据分析师(CDA)专版
22 : 语音物象(精神物象之四)
0 个回复 - 530 次查看 我把语音物象划归精神物象范畴,是由于语音符号都是有含义的,它们是语言社区意愿意志赋予各个音节象征不同事物,达到词义物象与实体对象的思维联系。这完全是人类社会一种精神现象。声音的物理属性并不能排斥语音的 ...2022-6-6 13:10 - 陈才天 - 哲学与心理学版
【独家发布】前瞻产业研究院:2021年全球人工智能市场发展现状分析 机器视觉和语音识别是主要市场
3 个回复 - 4160 次查看 ——原标题:2021年全球人工智能市场发展现状分析 计算机视觉和语音识别为技术层关键 【组图】 人工智能行业主要上市公司:目前国内人工智能行业的上市公司主要有百度百度(BAIDU)、腾讯(TCTZF)、阿里巴巴(BABA)、科 ...2022-3-24 14:00 - 流水本无意 - 数据分析与数据挖掘
求助R语音辅导
1 个回复 - 197 次查看 求助R语音辅导2022-5-23 10:16 - 梦似勿忘 - 求助成功区
利用人工智能实现多视点无声视频语音重建 饲料
0 个回复 - 337 次查看 摘要翻译: 朗读或唇读是从说话者的视觉特征如嘴唇、脸、牙齿和舌头的运动中理解和获得语音特征的技术。它有广泛的多媒体应用,如在监视,互联网电话,并作为一个有听力障碍的人的援助。然而,演讲阅读的大部分工作一 ...2022-3-18 18:20 - kedemingshi - Forum
人工智能实战之语音识别
0 个回复 - 748 次查看 一、课程背景CDA数据分析师人才教育品牌联合海内外知名讲师团队共同打造AI在线学习解决方案。旨在培养AI时代“十字型”技术精英。人工智能工程师课程中,可以让你在家就能学习机器学习全栈课程,零基础入门,学习知名 ...2022-3-8 13:40 - AIU人工智能学院 - 数据分析师(CDA)专版
人工智能如何将语音超越电话
0 个回复 - 3350 次查看 在过去的十年中,通信技术面临着非同寻常的变化。谈到 2020 年,它为新一代利用他们的能力并在未来许多年为企业增加价值树立了新的标杆。语音技术以某种方式与电话联系在一起。由于连接仍然很牢固,语音正以各种方式 ...2022-3-29 16:08 - 时光永痕 - 数据分析与数据挖掘
一种抗噪声的递归深度神经网络回归模型 语音基频轮廓的估计
0 个回复 - 498 次查看 摘要翻译: 语音基频(F0)轮廓是表征语音韵律的一个重要方面,在语音转换、语音合成、说话人和语种识别等语音和口语分析中都有广泛的应用。本文提出了利用深度神经网络(DNN)和递归神经网络(RNN)估计语音F0轮廓的新方法 ...2022-3-14 14:55 - kedemingshi - Forum
Bridgenets:基于递归神经网络的师生迁移学习 网络及其在远程语音识别中的应用
0 个回复 - 365 次查看 摘要翻译: 尽管自动语音识别技术取得了显著的进展,但识别混杂着各种噪声源的远场语音仍然是一项具有挑战性的任务。本文介绍了一种新颖的师生迁移学习方法BridgeNet,它为提高远程语音识别能力提供了一种解决方案。 ...2022-3-6 18:29 - 可人4 - Forum
基于递阶递归神经网络的波形建模与生成 语音带宽扩展网络
0 个回复 - 269 次查看 摘要翻译: 提出了一种用于语音带宽扩展(BWE)的分层递归神经网络(HRNN)波形建模和生成方法。与传统的BWE方法预测频谱参数重构宽带语音波形不同,该方法不使用声码器,直接对波形样本进行建模和预测。受无条件神经音频 ...2022-3-6 18:50 - 大多数88 - Forum
基于上下文感知的递归神经网络的语音去混响
0 个回复 - 208 次查看 摘要翻译: 在本文中,我们提出了一个模型来执行语音去混响,通过估计其频谱大小从混响对应。我们的模型能够通过卷积编码器(它从短的、有界的帧上下文中提取特征)和用于提取长期信息的递归神经网络来提取考虑信号中 ...2022-3-8 09:51 - 能者818 - Forum
鲁棒特征聚类在无监督语音活动检测中的应用
0 个回复 - 197 次查看 摘要翻译: 在某些应用中,例如零资源语音处理或极低资源语音语言系统,收集语音活动检测(SAD)注释可能是不可行的。然而,目前最先进的基于神经网络或其他机器学习方法的监督SAD技术需要与目标域匹配的注释训练数据。 ...2022-4-15 10:00 - 可人4 - Forum
Unspeech:无监督语音上下文嵌入
0 个回复 - 412 次查看 摘要翻译: 我们引入了“非语音”嵌入,它是基于对口语上下文特征表示的无监督学习。在没有转录或说话人信息的情况下,通过使用基于上下文和非上下文识别的直接学习目标和负抽样,对多达9500小时的爬行英语语音数据进 ...2022-4-13 21:35 - 何人来此 - Forum
基于向量空间投影的语音深度去噪
0 个回复 - 299 次查看 摘要翻译: 我们提出了一种在非平稳和动态噪声存在的情况下对单个麦克风的扬声器进行降噪的算法。我们的方法受到最近成功的神经网络模型的启发,该模型将演讲者与其他演讲者分开,将歌手与器乐伴奏分开。与现有技术不 ...2022-4-13 19:55 - 能者818 - Forum
域不变语音原始语音特征的对抗学习 识别
0 个回复 - 193 次查看 摘要翻译: 近年来,基于神经网络的声学建模技术在自动语音识别(ASR)性能方面取得了显著的进步。为了使声学模型能够处理大的声学变异性,需要大量的标记数据,而这些标记数据往往是昂贵的。本文探讨了对抗性训练在从 ...2022-4-12 18:50 - nandehutu2022 - Forum
基于远场语音识别的ICD码自动记录
0 个回复 - 320 次查看 摘要翻译: 文档错误增加了医疗保健成本,并导致不必要的病人死亡。作为诊断和计费的标准语言,ICD代码是全世界医疗文件的基础。尽管电子病历的普及,医院仍然见证了ICD错误编码的高水平。在这篇论文中,我们提出了用 ...2022-4-11 21:40 - mingdashike22 - Forum
基于全卷积网络的语音去混响
0 个回复 - 399 次查看 摘要翻译: 本文研究了使用单个麦克风进行语音识别的问题。基于全卷积网络(FCN)在图像处理中的成功应用,我们研究了它对短时傅立叶变换(STFT)图像的增强的适用性。我们提出了两个变体:一个是具有跳过连接的编解码器 ...2022-4-11 16:15 - 何人来此 - Forum
基于生成对抗网络的语音研究 用于鲁棒语音识别的去混响方法
0 个回复 - 409 次查看 摘要翻译: 我们研究了生成对抗网络(GANs)在语音去混响中的应用,以实现鲁棒的语音识别。近年来,GANs已被用于语音增强以消除加性噪声,但仍缺乏对其语音去混响能力的研究,使用GANs的优势尚未完全确立。本文对GaN ...2022-4-11 14:55 - 何人来此 - Forum
使用部分异步麦克风阵列的语音分离 重采样
0 个回复 - 241 次查看 摘要翻译: 我们考虑了由多个空间分离的设备捕获的语音源的分离问题,每个设备都有多个麦克风,并以稍微不同的速率对其信号进行采样。大多数异步阵列处理方法依赖于采样率偏移估计和重采样,但如果信源或麦克风在移动 ...2022-4-11 12:50 - 能者818 - Forum
语音中学习细粒度的分离表示
0 个回复 - 350 次查看 摘要翻译: 学习高维数据的解纠缠表示是当前一个活跃的研究领域。然而,与计算机视觉领域相比,语音处理方面的研究相对较少。在本文中,我们回顾了这方面的两个有代表性的研究成果,并提出了细粒度分离语音表征学习的 ...2022-4-11 08:15 - 何人来此 - Forum
神经网络中音高-重音标注的准确性研究 基于网络的语音合成与去噪效果
0 个回复 - 175 次查看 摘要翻译: 我们研究了噪声语言特征对基于神经网络的日语语音合成系统性能的影响,该系统使用WaveNet声码器。我们比较了一个在训练和测试集中使用人工校正的语言特征(包括音素和韵律信息)的理想系统与其他几个使用 ...2022-4-10 08:30 - 大多数88 - Forum
的低语音失真含噪语音增强 概率几何谱减法
0 个回复 - 360 次查看 摘要翻译: 提出了一种基于概率几何谱减法(PGA)的短时幅度谱语音增强方法。该方法在增益函数中引入了噪声估计的置信度参数,以防止高估和低估噪声的减去,既有效地去除噪声,又防止了语音失真。然后,在合成增强帧之 ...2022-4-9 17:05 - nandehutu2022 - Forum
基于时域GANs的端到端语音驱动人脸动画
0 个回复 - 329 次查看 摘要翻译: 语音驱动人脸动画是利用语音信号自动合成一个会说话的角色的过程。该领域的大部分工作创建了从音频特征到视觉特征的映射。这通常需要使用计算机图形技术进行后处理,以产生逼真的尽管与主题相关的结果。我 ...2022-4-8 09:40 - 何人来此 - Forum
解读DNN输出层激活:一种应对策略 语音识别中的未见数据
0 个回复 - 233 次查看 摘要翻译: 未见数据会降低深度神经网络声学模型的性能。为了处理看不见的数据,采用了适应技术。对于未标记的未见数据,必须在给定已有模型的情况下生成一些假设,作为模型自适应的标记。然而,评估假设的优劣可能是 ...2022-4-7 18:25 - 可人4 - Forum
训练具有截断反向传播的递归网络 语音识别中的时间
0 个回复 - 209 次查看 摘要翻译: 递归神经网络已经成为许多语音和语言处理任务的主要模型。然而,我们对递归网络所能实现的行为和功能类别了解甚少。此外,在训练中使用的启发式使分析复杂化。在本文中,我们研究了在语音识别的背景下,递 ...2022-4-7 16:25 - 何人来此 - Forum
基于指数模型的含噪语音增强 感知小波包中的阈值及自定义阈值函数 域
0 个回复 - 184 次查看 摘要翻译: 针对带噪语音的增强问题,提出了一种基于Teager energy(TE)操作的感知小波包(PWP)系数指数分布建模的阈值确定方法。设计了一个自定义的门限函数,该门限函数基于MU-律和半软阈值函数的结合,将统计导出的 ...2022-4-7 14:15 - nandehutu2022 - Forum
统计参数语音合成的缺点分析
0 个回复 - 458 次查看 摘要翻译: 统计参数语音合成(SPSS)的输出在质量、自然度、说话人相似度和噪声中的可懂度方面明显低于自然语音记录。关于这些缺点的起源有许多假设,但这些假设往往保持模糊,没有经验证据来证实和量化特定缺点是如何 ...2022-4-6 18:45 - 能者818 - Forum
基于对抗性实例的鲁棒语音增强训练 识别
0 个回复 - 225 次查看 摘要翻译: 为了提高深度神经网络声学模型的鲁棒性,本文探讨了在训练语音识别系统中使用对抗性实例的方法。在训练过程中,采用快速梯度符号法生成对抗性示例,对原始训练数据进行扩充。与传统的基于数据变换的数据增 ...2022-4-5 18:10 - nandehutu2022 - Forum
域增强、增强和自动编码器方法的研究 远距离语音识别中的自适应
0 个回复 - 181 次查看 摘要翻译: 训练在近距离语音上的语音识别器不能推广到远距离语音,而且错误率绝对下降可达40%。大多数研究集中在解决远距离语音识别作为一个单独的问题,很少努力使近距离说话的语音识别器适应远距离语音。在这项工 ...2022-4-5 12:20 - mingdashike22 - Forum
强调:一种基于情感音素的语音合成声学模型 系统
0 个回复 - 197 次查看 摘要翻译: 我们提出了一个基于情感音素的语音合成系统声学模型。重点包括音素持续时间预测模型和声学参数预测模型。它使用一个基于CBHG的回归网络来建模语言特征和声学特征之间的依赖关系。为了提高网络的性能,我们 ...2022-4-5 10:55 - 何人来此 - Forum
基于对抗学习的无监督域自适应鲁棒语音 识别
0 个回复 - 355 次查看 摘要翻译: 在这篇论文中,我们研究了对抗学习的使用,以无监督地适应不可见的记录条件,更具体地说,单麦克风远场语音。我们使用未转录的自适应数据使基于神经网络的声学模型适应新的记录条件。在意大利语语料数据集 ...2022-4-4 20:25 - kedemingshi - Forum
调制域Kalman滤波在单耳盲语音降噪中的应用 和去混响
0 个回复 - 391 次查看 摘要翻译: 提出了一种基于调制域Kalman滤波的单声道语音增强算法,对语音和混响的时频对数幅值谱进行盲跟踪。提出了一种自适应算法,在考虑帧间语音动态特性的基础上,通过给定带噪混响语音的对数幅度谱估计语音对数 ...2022-4-3 21:25 - kedemingshi - Forum
天鹅绒噪声的频域变体及其应用 语音处理与合成:附附录
0 个回复 - 416 次查看 摘要翻译: 我们提出了一种新的声码器激励源信号和一种全通脉冲响应,用于合成声音的后处理和自然声音的预处理,用于数据增强。所提出的信号是天鹅绒噪声的变体,天鹅绒噪声是由少量非零(1或-1)元素组成的稀疏离散 ...2022-4-2 13:55 - kedemingshi - Forum
一次说话人自适应的机器语音
0 个回复 - 355 次查看 摘要翻译: 在之前的工作中,我们开发了一个基于深度学习的闭环语音链模型,其中的架构使自动语音识别(ASR)和文本语音合成(TTS)组件能够相互提高性能。这是通过两个部分使用标记和未标记的数据相互教学来实现的。该方 ...2022-4-2 11:00 - 何人来此 - Forum
用策略学习改进端到端语音识别
0 个回复 - 367 次查看 摘要翻译: 连接主义时态分类(CTC)被广泛应用于端到端语音识别模型中的最大似然学习。然而,负最大似然与语音识别中使用的性能指标(如误字率(WER))之间通常存在差异。这导致在训练过程中目标函数和度量之间的不匹配 ...2022-4-1 22:30 - 能者818 - Forum
单转换器打开的多语言端到端语音识别 低资源语言
0 个回复 - 190 次查看 摘要翻译: 基于注意的序列到序列模型将声学、发音和语言模型集成到一个单一的神经网络中,这使得它们非常适合于多语言自动语音识别(ASR)。在本文中,我们通过一个单一的转换器来研究低资源语言上的多语言语音识别, ...2022-3-31 14:20 - 能者818 - Forum
深度上下文:端到端上下文语音识别
0 个回复 - 313 次查看 摘要翻译: 在自动语音识别(ASR)中,用户所说的话取决于她所处的特定环境。通常,这个上下文表示为一组单词n-图。在这项工作中,我们提出了一个新的,全神经,端到端(E2E)ASR系统利用这样的上下文。我们的方法,我们 ...2022-3-30 17:20 - 可人4 - Forum
深度学习-语音识别实战(Python)
1 个回复 - 1442 次查看 深度学习-语音识别实战(Python) 下载地址:https://pan.baidu.com/s/1Le59dsSh2nWkGyBncMNZIw 提取码: 3dd4 基于深度学习的语音识别实战课程主要包括三部分内容: 1.经典论文算法讲解; 2.算法源码解读; 3.项 ...2021-5-12 16:50 - 少年码农 - Forum
EMA控制舌头模型动画研究进展 声-视语音合成
0 个回复 - 226 次查看 摘要翻译: 我们提出了一种三维运动舌模型的动画技术,舌模型是声-视(AV)语音合成器说话头的一个组成部分。该骨骼动画方法是利用一个可变形装置,该装置由电磁成像(EMA)获得的舌运动捕获数据控制,而舌面是从体积磁共 ...2022-3-28 14:40 - 大多数88 - Forum
利用Cycle-GAN实现无并行数据的节奏灵活语音转换 音素后验图序列
0 个回复 - 198 次查看 摘要翻译: 语速是指在一定的单位时间内音素的平均数量,节奏模式是指不同音素在不同语音结构中实现的时长分布。两者都是语音韵律的重要组成部分,对于不同的说话者来说是不同的。循环一致对抗网络(Cycle-GAN)和变 ...2022-3-27 14:15 - nandehutu2022 - Forum
复杂环境背景中的语音遮蔽(语音)语料库
0 个回复 - 287 次查看 摘要翻译: 本文介绍了在Creative Commons 4.0下的一个免费数据集--复杂环境中隐藏的声音语料库(Voices)。该数据集将促进噪声环境下远场话筒语音和信号处理的研究。公开的语音语料库大多由近距离微音的孤立语音组成。 ...2022-3-27 11:15 - mingdashike22 - Forum
基于性能的端到端语音分离代价函数
0 个回复 - 426 次查看 摘要翻译: 最近的神经网络源分离策略试图通过直接处理音频信号的波形来建模音频信号。均方误差(MSE)度量去噪语音波形与地面真值语音波形之间的欧几里得距离,是这些方法的自然代价函数。然而,MSE不是一个知觉动机的 ...2022-3-25 22:55 - nandehutu2022 - Forum
AVA-Speech:一个密集标记的电影中语音活动数据集
0 个回复 - 560 次查看 摘要翻译: 语音活动检测(或端点)是语音识别、语种识别和说话人识别等应用中的一个重要处理步骤。基于音频和视觉的方法已经在各种设置中用于这项任务,通常是针对最终应用而定制的。然而,以前的许多工作报告都是在 ...2022-3-25 11:55 - 可人4 - Forum
增强编码语音的卷积神经网络
0 个回复 - 360 次查看 摘要翻译: 编码后的语音受到远端噪声、量化噪声和潜在传输错误的影响,增强编码语音是一项具有挑战性的任务。在本文中,我们提出了两种后处理方法,分别在时域和倒谱域应用卷积神经网络来增强编码语音,而不需要对编 ...2022-3-24 12:15 - 能者818 - Forum
在鸡尾酒会上倾听:一个说话人独立的人 语音分离视听模型
0 个回复 - 339 次查看 摘要翻译: 我们提出了一个联合视听模型,用于从其他说话人和背景噪声等混合声音中分离单个语音信号。仅使用音频作为输入来解决这个任务是极具挑战性的,并且不能提供分离的语音信号与视频中的扬声器的关联。在本文中 ...2022-3-23 20:15 - 可人4 - Forum
基于变分表达式建模的表达型语音合成 自动编码器
0 个回复 - 374 次查看 摘要翻译: 近年来神经自回归模型的发展提高了语音合成(SS)的性能。然而,由于神经自回归SS系统缺乏对语音的全局特征(如说话人的个性或说话风格)建模的能力,特别是在这些特征没有被标记的情况下,如何使神经自回归 ...2022-3-22 21:00 - 可人4 - Forum
微软2016对话式语音识别系统
0 个回复 - 285 次查看 摘要翻译: 我们描述了微软的对话式语音识别系统,在该系统中,我们结合了基于神经网络的声学和语言建模的最新发展,以推进总机识别任务的最新技术。受机器学习集成技术的启发,该系统使用了一系列卷积和递归神经网络 ...2022-3-22 20:10 - 何人来此 - Forum
基于DNN的Monte Carlo Dropout算法对未知噪声的语音增强
0 个回复 - 553 次查看 摘要翻译: 在这项工作中,我们提出了使用丢包作为贝叶斯估计量来增加深度神经网络(DNN)用于语音增强的泛化能力。利用Monte Carlo(MC)dropout算法,证明了该算法在未知噪声和信噪比条件下具有较好的增强效果。在信噪 ...2022-3-22 20:05 - 能者818 - Forum
四元数卷积神经网络在端到端自动语音中的应用 识别
0 个回复 - 644 次查看 摘要翻译: 最近,连接主义时态分类(CTC)模型与递归(RNN)或卷积神经网络(CNN)相结合,使得语音识别系统的端到端训练变得更加容易。然而,在实值模型中,时间帧分量,如梅尔滤波器组能量和由它们得到的倒首系数,以及 ...2022-3-22 14:25 - 何人来此 - Forum
向学习对称分布的抖动前归一化 语音情感识别中的无边界表示
0 个回复 - 199 次查看 摘要翻译: 正则化对于许多实际的深度学习模型的成功至关重要,尤其是在只有少数到中等数量的可访问训练样本的情况下。除了权值衰减、数据增加和丢失之外,基于多分支结构的正则化,如Shake-Shake正则化,已经在许多 ...2022-3-22 13:15 - 可人4 - Forum
基于说话人自适应DNN的语音建模的缩放和偏置编码 合成系统
0 个回复 - 239 次查看 摘要翻译: 大多数基于神经网络的说话人自适应语音合成模型可以分为基于层的方法和基于输入码的方法。尽管这两种方法各有利弊,但现有的大多数关于说话人自适应的研究都集中在改进其中一种方法上。本文首先系统地综述 ...2022-3-21 20:25 - 大多数88 - Forum
一种分而治之的无音乐噪声语音增强策略 在恶劣环境中
0 个回复 - 190 次查看 摘要翻译: 本文提出了一种在信噪比较低的恶劣环境中增强噪声语音的分而治之策略,将整个语音增强系统分为两个独立的步骤。第一步是基于短时幅值的噪声补偿,第二步是基于相位补偿。采用改进的谱减法对幅度谱进行补偿 ...2022-3-20 20:05 - 何人来此 - Forum
人机语音情感识别的鲁棒性研究 与深度神经网络的交互
0 个回复 - 211 次查看 摘要翻译: 语音情感识别(SER)是人-机器人有效协作的一个重要方面,受到了学术界的广泛关注。例如,最近提出了许多基于神经网络的体系结构,并将性能提升到了一个新的水平。然而,这种只在域内数据上训练的神经SER模 ...2022-3-20 14:40 - kedemingshi - Forum
惩前毖后:改进自动语音识别 通过噪声-清洁短语上下文建模输出
0 个回复 - 282 次查看 摘要翻译: 自动语音识别(ASR)系统经常由于子系统修剪(声学、语言和发音模型)而产生不可恢复的错误;例如,在基于语言学的长期上下文重新取心之前,由于声学原因使用短期上下文修剪单词。在本文中,我们将ASR建模为 ...2022-3-19 08:45 - 何人来此 - Forum
语音模拟文本-语音神经网络
0 个回复 - 292 次查看 摘要翻译: 本文提出了一种神经文本到语音(TTS)模型,该模型只需少量的语音样本就能模拟新说话人的语音。我们仅使用一个6秒长的语音样本来演示语音模仿,而没有任何其他信息,如抄本。我们的模型还可以在不对模型进行 ...2022-3-18 18:00 - mingdashike22 - Forum
比较异质视觉手势测量的多样性 视觉语音信号
0 个回复 - 480 次查看 摘要翻译: 在唇读时观察到的视觉唇部手势有几个工作定义,最常见的两个是;“音素在视觉上的等价物”和“在嘴唇上无法区分的音素”。到目前为止,还没有正式的定义,部分原因是到目前为止,我们还没有在视素和音素之 ...2022-3-16 22:30 - mingdashike22 - Forum
多任务WaveNet:一种统计的多任务生成模型 无基频条件的参数语音合成
0 个回复 - 302 次查看 摘要翻译: 在多任务学习框架下,提出了一种基于WaveNet的统计参数语音合成(SPSS)的改进生成模型。与原有的WaveNet模型不同,本文提出的多任务WaveNet采用帧级声学特征预测作为辅助任务,并且可以去除原始WaveNet的外 ...2022-3-15 21:05 - nandehutu2022 - Forum
女友发语音
0 个回复 - 281 次查看 昨天,女友发语音问:知道贫字怎么写吗? 我:这么简单啊你都不会,分贝! 然后没有消息了。。。2022-3-15 15:31 - 最爱贝 - 休闲灌水
STARGAN-VC:基于star的非并行多对多语音转换 生成对抗网络
1 个回复 - 752 次查看 摘要翻译: 提出了一种利用生成对抗网络(GAN)的变体STARGAN实现非并行多对多语音转换(VC)的方法。我们称之为StarGAN-VC的方法值得注意的是:(1)在语音生成器训练中不需要并行的话语、转录或时间对齐过程;(2)使用 ...2022-3-15 10:10 - mingdashike22 - Forum
带条件采样的语音转换
0 个回复 - 270 次查看 摘要翻译: 在这里,我们提出了一种新的方法,以条件化的SampleRNN生成模型的语音转换(VC)。传统的VC方法通过在源和目标声学特征之间进行转换来修改感知的说话人身份。我们的方法侧重于保留语音内容,并依赖生成网络 ...2022-3-13 17:54 - 何人来此 - Forum
语音和语义嵌入在口语中的应用 口语内容检索
0 个回复 - 242 次查看 摘要翻译: 单词嵌入或Word2Vec已经成功地为从单词上下文中学习的文本单词提供了语义。Audio Word2Vec被证明可以为口语单词提供语音结构(单词的信号段),从口语单词中的信号中学习。本文提出了一种基于语音和语义嵌 ...2022-3-13 10:12 - 可人4 - Forum
基于原始波形的端到端语音识别
0 个回复 - 211 次查看 摘要翻译: 最先进的语音识别系统依赖于固定的、手工制作的特征,如mel-filterbanks在训练管道之前对波形进行预处理。在本文中,我们研究了直接从原始波形训练的端到端系统,基于使用卷积结构的Mel滤波器组的两种可训 ...2022-3-11 17:39 - 能者818 - Forum