结果:找到“R 语音”相关内容1000个,排序为按回复时间降序,搜索更多相关帖子请点击“高级”
语音识别和智能家居控制开发套件实验
1 个回复 - 516 次查看
语音识别和智能家居控制开发套件实验
语音识别和智能家居控制开发套件实验
语音识别和智能家居控制开发套件实验
语音识别和智能家居控制开发套件实验
语音识别和智能家居控制开发套件实验
语音识别和智 ...
2021-12-23 21:23 - Tiger-like - 现金交易版
文字转语音怎么实现?
1 个回复 - 622 次查看
平日里闲来无聊想要做一个视频,就好比像我这种声音不太好听的人,不想用自己的声音来配音。这时我们就可以借助第三方工具来完成,使用文字转
语音助手帮助配音就会省时省事多了。个人觉得特别适合自媒体人使用 ...
2019-5-6 15:10 - 转换达人 - 跳蚤市场
德语语音教程
9 个回复 - 2182 次查看
很经典的一本德语
语音教材,里面的图片连嘴型、舌头的位置标注的都很清楚,值得对德语有兴趣的同学下载学习交流。
2011-7-9 21:04 - ihc7788 - 外语学习
AI语音行业紧缺,全栈语音工程师究竟有多难?
1 个回复 - 2115 次查看
语音识别基础知识
【数学与统计学】
数学是所有学科的基础,其中的高等数学、数理方程、泛函分析等课程是必要的基础知识,概率论与数理统计也是
语音识别的基础学科。
【声学与语言学】
声学基础、理论声学、声学 ...
2019-7-9 13:47 - 放光的房子君 - Forum
设计基于语音识别和图像识别的手语翻译软件破茧
2 个回复 - 2197 次查看
价值主张:破茧是一款帮助听障人士和健听人士交流的软件。其使用图像识别、文字识别、
语音识别、
语音合成和机器翻译API。[/backcolor]
[/backcolor]
听障人士现状手语类型多看不懂、听不到、说不出是大多数听障人士 ...
2021-5-1 19:36 - G-2000 - Forum
自动标注语音
4 个回复 - 2268 次查看
SPPAS工具是由Brigitte Bigi(Laboratoire Parole et Langage - Aix-en-Provence - France)开发的。在网上提供免费下载及使用。这是一款目前比较流行的自动标注,音段对齐的工具,目前应用于法语、英语 ...
2021-3-31 18:55 - olympic - Forum
深度学习-语音识别实战(Python)
4 个回复 - 3627 次查看
深度学习-
语音识别实战(Python)
网盘地址:https://pan.baidu.com/s/1vWTSaG7a86DB0kGNWhN1oQ提取码: cfcm
备用地址(腾讯微云):https://share.weiyun.com/aNF2L1IS 密码:ivfk5p
课程概述
基于深度学习的语 ...
2021-2-5 10:17 - 大帅哥很帅的 - Forum
【语音拣选在物流中心应用】
9 个回复 - 1830 次查看
语音拣选解决方案已经逐步替代传统物流中心纸质和
RF驱动的作业,彻底实现系统与操作员工的双向实时对话,快速找到货位,作业信息快速反馈系统,简化工作流程,彻底解放双手,同时也释放双眼(不需要去看显示屏和作业单),提高 ...
2012-4-24 18:26 - 大师坑 - 天津工程职业技术学院管理科学与工程系
【利群集团语音拣选技术应用】
7 个回复 - 1267 次查看
【利群集团
语音拣选技术应用】利群集团
语音拣选用于冷链、零售等物流的多个环境,使用
语音拣选彻底替换
RF的手持终端后:工作效率的提升28%,差错率降低到几乎为零,解放双手,提升了作业安全,减少商品损耗,降低员 ...
2012-4-24 18:31 - 大师坑 - 天津工程职业技术学院管理科学与工程系
周礼键君:高盛投资语音金融信息平台
3 个回复 - 1255 次查看
周礼键君:高盛投资
语音金融信息平台
Kensho可自动完成以往依靠大量人力的研究,回答数百万复杂金融问题
高盛(Goldman Sachs)成为一家金融分析初创公司的最大投资者,后者让金融机构挖掘大数据。此举凸显出华尔街 ...
2016-6-19 10:15 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1283 次查看
周礼键:谷歌旗下DeepMind在
语音生成领域取得突破
语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的
语音与人声的品质差距缩小了一半。
周礼键:谷歌旗下DeepMind在
语音生成领域取得 ...
2016-11-14 23:12 - 周礼键 - 休闲灌水
周礼键:谷歌旗下DeepMind在语音生成领域取得突破
3 个回复 - 1137 次查看
周礼键:谷歌旗下DeepMind在
语音生成领域取得突破
语音生成技术旨在让机器像人一般“自然”发声。据测试,DeepMind将机器生成的
语音与人声的品质差距缩小了一半。
周礼键:谷歌旗下DeepMind在
语音生成领域取得 ...
2016-11-22 10:54 - 周礼键 - 休闲灌水
基于语音交互的供应链智能报表应用研究
0 个回复 - 557 次查看
1 论文标题:基于
语音交互的供应链智能报表应用研究
2 作者信息:洪芳华, 徐弘道:国网上海市电力公司物资公司,上海;顾华骏:上海欣能信息科技发展有限公司,上海;董凤娜, 肖 锋:上海久隆企业管理咨询有限公司 ...
2022-9-19 08:58 - 2019hansi - 论文版
从文本到语音:概述
0 个回复 - 672 次查看
文本转
语音软件将数字文本转换为
语音。例如,可以突出显示文本,按下播放按钮,然后读者大声朗读内容。TTS 程序中提供的附加功能和声音有所不同,但核心前提保持不变。它们允许您对数字文本进行听觉而非视觉消费。TT ...
2022-7-22 16:20 - 时光永痕 - 数据分析与数据挖掘
教你怎样用python进行语音识别
0 个回复 - 526 次查看
作者 | 小隐 来源 | 淘气面包 原文 | 教你怎样用python进行
语音识别
网上找到一些例子,有一些成熟的模型,可以将
语音转成文字。例如Cloud Speech API,但是需要你使用google云平台的前提。
speech recognition
对于 ...
2022-6-9 11:43 - AIU人工智能学院 - 数据分析师(CDA)专版
22 : 语音物象(精神物象之四)
0 个回复 - 554 次查看
我把
语音物象划归精神物象范畴,是由于
语音符号都是有含义的,它们是语言社区意愿意志赋予各个音节象征不同事物,达到词义物象与实体对象的思维联系。这完全是人类社会一种精神现象。声音的物理属性并不能排斥
语音的 ...
2022-6-6 13:10 - 陈才天 - 哲学与心理学版
人工智能实战之语音识别
0 个回复 - 791 次查看
一、课程背景CDA数据分析师人才教育品牌联合海内外知名讲师团队共同打造AI在线学习解决方案。旨在培养AI时代“十字型”技术精英。人工智能工程师课程中,可以让你在家就能学习机器学习全栈课程,零基础入门,学习知名 ...
2022-3-8 13:40 - AIU人工智能学院 - 数据分析师(CDA)专版
人工智能如何将语音超越电话
0 个回复 - 3408 次查看
在过去的十年中,通信技术面临着非同寻常的变化。谈到 2020 年,它为新一代利用他们的能力并在未来许多年为企业增加价值树立了新的标杆。
语音技术以某种方式与电话联系在一起。由于连接仍然很牢固,
语音正以各种方式 ...
2022-3-29 16:08 - 时光永痕 - 数据分析与数据挖掘
基于递阶递归神经网络的波形建模与生成
语音带宽扩展网络
0 个回复 - 281 次查看
摘要翻译:
提出了一种用于
语音带宽扩展(BWE)的分层递归神经网络(H
RNN)波形建模和生成方法。与传统的BWE方法预测频谱参数重构宽带
语音波形不同,该方法不使用声码器,直接对波形样本进行建模和预测。受无条件神经音频 ...
2022-3-6 18:50 - 大多数88 - Forum
基于上下文感知的递归神经网络的语音去混响
0 个回复 - 223 次查看
摘要翻译:
在本文中,我们提出了一个模型来执行
语音去混响,通过估计其频谱大小从混响对应。我们的模型能够通过卷积编码器(它从短的、有界的帧上下文中提取特征)和用于提取长期信息的递归神经网络来提取考虑信号中 ...
2022-3-8 09:51 - 能者818 - Forum
鲁棒特征聚类在无监督语音活动检测中的应用
0 个回复 - 208 次查看
摘要翻译:
在某些应用中,例如零资源
语音处理或极低资源
语音语言系统,收集
语音活动检测(SAD)注释可能是不可行的。然而,目前最先进的基于神经网络或其他机器学习方法的监督SAD技术需要与目标域匹配的注释训练数据。 ...
2022-4-15 10:00 - 可人4 - Forum
Unspeech:无监督语音上下文嵌入
0 个回复 - 421 次查看
摘要翻译:
我们引入了“非
语音”嵌入,它是基于对口语上下文特征表示的无监督学习。在没有转录或说话人信息的情况下,通过使用基于上下文和非上下文识别的直接学习目标和负抽样,对多达9500小时的爬行英语
语音数据进 ...
2022-4-13 21:35 - 何人来此 - Forum
基于向量空间投影的语音深度去噪
0 个回复 - 306 次查看
摘要翻译:
我们提出了一种在非平稳和动态噪声存在的情况下对单个麦克风的扬声器进行降噪的算法。我们的方法受到最近成功的神经网络模型的启发,该模型将演讲者与其他演讲者分开,将歌手与器乐伴奏分开。与现有技术不 ...
2022-4-13 19:55 - 能者818 - Forum
基于远场语音识别的ICD码自动记录
0 个回复 - 353 次查看
摘要翻译:
文档错误增加了医疗保健成本,并导致不必要的病人死亡。作为诊断和计费的标准语言,ICD代码是全世界医疗文件的基础。尽管电子病历的普及,医院仍然见证了ICD错误编码的高水平。在这篇论文中,我们提出了用 ...
2022-4-11 21:40 - mingdashike22 - Forum
基于全卷积网络的语音去混响
0 个回复 - 407 次查看
摘要翻译:
本文研究了使用单个麦克风进行
语音识别的问题。基于全卷积网络(FCN)在图像处理中的成功应用,我们研究了它对短时傅立叶变换(STFT)图像的增强的适用性。我们提出了两个变体:一个是具有跳过连接的编解码器 ...
2022-4-11 16:15 - 何人来此 - Forum
基于生成对抗网络的语音研究
用于鲁棒语音识别的去混响方法
0 个回复 - 419 次查看
摘要翻译:
我们研究了生成对抗网络(GANs)在
语音去混响中的应用,以实现鲁棒的
语音识别。近年来,GANs已被用于
语音增强以消除加性噪声,但仍缺乏对其
语音去混响能力的研究,使用GANs的优势尚未完全确立。本文对GaN ...
2022-4-11 14:55 - 何人来此 - Forum
使用部分异步麦克风阵列的语音分离
重采样
0 个回复 - 253 次查看
摘要翻译:
我们考虑了由多个空间分离的设备捕获的
语音源的分离问题,每个设备都有多个麦克风,并以稍微不同的速率对其信号进行采样。大多数异步阵列处理方法依赖于采样率偏移估计和重采样,但如果信源或麦克风在移动 ...
2022-4-11 12:50 - 能者818 - Forum
从语音中学习细粒度的分离表示
0 个回复 - 359 次查看
摘要翻译:
学习高维数据的解纠缠表示是当前一个活跃的研究领域。然而,与计算机视觉领域相比,
语音处理方面的研究相对较少。在本文中,我们回顾了这方面的两个有代表性的研究成果,并提出了细粒度分离
语音表征学习的 ...
2022-4-11 08:15 - 何人来此 - Forum
基于时域GANs的端到端语音驱动人脸动画
0 个回复 - 336 次查看
摘要翻译:
语音驱动人脸动画是利用
语音信号自动合成一个会说话的角色的过程。该领域的大部分工作创建了从音频特征到视觉特征的映射。这通常需要使用计算机图形技术进行后处理,以产生逼真的尽管与主题相关的结果。我 ...
2022-4-8 09:40 - 何人来此 - Forum
训练具有截断反向传播的递归网络
语音识别中的时间
0 个回复 - 220 次查看
摘要翻译:
递归神经网络已经成为许多
语音和语言处理任务的主要模型。然而,我们对递归网络所能实现的行为和功能类别了解甚少。此外,在训练中使用的启发式使分析复杂化。在本文中,我们研究了在
语音识别的背景下,递 ...
2022-4-7 16:25 - 何人来此 - Forum
统计参数语音合成的缺点分析
0 个回复 - 478 次查看
摘要翻译:
统计参数
语音合成(SPSS)的输出在质量、自然度、说话人相似度和噪声中的可懂度方面明显低于自然
语音记录。关于这些缺点的起源有许多假设,但这些假设往往保持模糊,没有经验证据来证实和量化特定缺点是如何 ...
2022-4-6 18:45 - 能者818 - Forum
强调:一种基于情感音素的语音合成声学模型
系统
0 个回复 - 207 次查看
摘要翻译:
我们提出了一个基于情感音素的
语音合成系统声学模型。重点包括音素持续时间预测模型和声学参数预测模型。它使用一个基于CBHG的回归网络来建模语言特征和声学特征之间的依赖关系。为了提高网络的性能,我们 ...
2022-4-5 10:55 - 何人来此 - Forum
一次说话人自适应的机器语音链
0 个回复 - 366 次查看
摘要翻译:
在之前的工作中,我们开发了一个基于深度学习的闭环
语音链模型,其中的架构使自动
语音识别(AS
R)和文本
语音合成(TTS)组件能够相互提高性能。这是通过两个部分使用标记和未标记的数据相互教学来实现的。该方 ...
2022-4-2 11:00 - 何人来此 - Forum
用策略学习改进端到端语音识别
0 个回复 - 376 次查看
摘要翻译:
连接主义时态分类(CTC)被广泛应用于端到端
语音识别模型中的最大似然学习。然而,负最大似然与
语音识别中使用的性能指标(如误字率(WE
R))之间通常存在差异。这导致在训练过程中目标函数和度量之间的不匹配 ...
2022-4-1 22:30 - 能者818 - Forum
单转换器打开的多语言端到端语音识别
低资源语言
0 个回复 - 198 次查看
摘要翻译:
基于注意的序列到序列模型将声学、发音和语言模型集成到一个单一的神经网络中,这使得它们非常适合于多语言自动
语音识别(AS
R)。在本文中,我们通过一个单一的转换器来研究低资源语言上的多语言
语音识别, ...
2022-3-31 14:20 - 能者818 - Forum
深度上下文:端到端上下文语音识别
0 个回复 - 325 次查看
摘要翻译:
在自动
语音识别(AS
R)中,用户所说的话取决于她所处的特定环境。通常,这个上下文表示为一组单词n-图。在这项工作中,我们提出了一个新的,全神经,端到端(E2E)AS
R系统利用这样的上下文。我们的方法,我们 ...
2022-3-30 17:20 - 可人4 - Forum
深度学习-语音识别实战(Python)
1 个回复 - 1505 次查看
深度学习-
语音识别实战(Python)
下载地址:https://pan.baidu.com/s/1Le59dsSh2nWkGyBncMNZIw 提取码: 3dd4
基于深度学习的
语音识别实战课程主要包括三部分内容:
1.经典论文算法讲解;
2.算法源码解读;
3.项 ...
2021-5-12 16:50 - 少年码农 - Forum
EMA控制舌头模型动画研究进展
声-视语音合成
0 个回复 - 266 次查看
摘要翻译:
我们提出了一种三维运动舌模型的动画技术,舌模型是声-视(AV)
语音合成器说话头的一个组成部分。该骨骼动画方法是利用一个可变形装置,该装置由电磁成像(EMA)获得的舌运动捕获数据控制,而舌面是从体积磁共 ...
2022-3-28 14:40 - 大多数88 - Forum
复杂环境背景中的语音遮蔽(语音)语料库
0 个回复 - 309 次查看
摘要翻译:
本文介绍了在Creative Commons 4.0下的一个免费数据集--复杂环境中隐藏的声音语料库(Voices)。该数据集将促进噪声环境下远场话筒
语音和信号处理的研究。公开的
语音语料库大多由近距离微音的孤立
语音组成。 ...
2022-3-27 11:15 - mingdashike22 - Forum
基于性能的端到端语音分离代价函数
0 个回复 - 436 次查看
摘要翻译:
最近的神经网络源分离策略试图通过直接处理音频信号的波形来建模音频信号。均方误差(MSE)度量去噪
语音波形与地面真值
语音波形之间的欧几里得距离,是这些方法的自然代价函数。然而,MSE不是一个知觉动机的 ...
2022-3-25 22:55 - nandehutu2022 - Forum
增强编码语音的卷积神经网络
0 个回复 - 372 次查看
摘要翻译:
编码后的
语音受到远端噪声、量化噪声和潜在传输错误的影响,增强编码
语音是一项具有挑战性的任务。在本文中,我们提出了两种后处理方法,分别在时域和倒谱域应用卷积神经网络来增强编码
语音,而不需要对编 ...
2022-3-24 12:15 - 能者818 - Forum
在鸡尾酒会上倾听:一个说话人独立的人
语音分离视听模型
0 个回复 - 352 次查看
摘要翻译:
我们提出了一个联合视听模型,用于从其他说话人和背景噪声等混合声音中分离单个
语音信号。仅使用音频作为输入来解决这个任务是极具挑战性的,并且不能提供分离的
语音信号与视频中的扬声器的关联。在本文中 ...
2022-3-23 20:15 - 可人4 - Forum
基于变分表达式建模的表达型语音合成
自动编码器
0 个回复 - 388 次查看
摘要翻译:
近年来神经自回归模型的发展提高了
语音合成(SS)的性能。然而,由于神经自回归SS系统缺乏对
语音的全局特征(如说话人的个性或说话风格)建模的能力,特别是在这些特征没有被标记的情况下,如何使神经自回归 ...
2022-3-22 21:00 - 可人4 - Forum
微软2016对话式语音识别系统
0 个回复 - 295 次查看
摘要翻译:
我们描述了微软的对话式
语音识别系统,在该系统中,我们结合了基于神经网络的声学和语言建模的最新发展,以推进总机识别任务的最新技术。受机器学习集成技术的启发,该系统使用了一系列卷积和递归神经网络 ...
2022-3-22 20:10 - 何人来此 - Forum