问题 Java语音识别


是否有任何人有任何开源的经验,或相对便宜的java语音识别API?我几乎都在寻找能将口语转化为文字的东西。

从sun上的java语音识别页面来看,它似乎已经相当死了。我的要求至少在linux上运行。

谁能推荐一些东西?纯Java将是一个奖励,否则可以考虑基于Linux的解决方案。因为这是一个家庭项目......越便宜越好。

  • 编辑

CMU Sphinx 正如阿米特指出CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 我的问题是大量的错误率。训练似乎本身就是一个项目,我希望本周末有一些力量来尝试。

IBM ViaVoice
关于2004年有新闻公布 Via Voice是开源的。新闻发布似乎为时过早,而且从未发生过。 VIA Voice是 发布的Linux版 在某些时候,但似乎他们停了下来。所有这些似乎都留在了IBM的网站上 ViaVoice嵌入式

IBM Websphere Voice
我想这就是为什么ViaVoice(桌面)似乎停止了。 IBM创建了这种商业解决方案,这种解决方案不仅仅需要分配一条腿和一条腿。只需使用它就可以使用你剩下的那些,至少在我使用websphere和他们的IDE之后。

Nuance的
看来他们仍然可以为linux创建产品。但我认为他们迷失了,并跟随IBM进入服务器市场。我不确定这个,他们的网站在找到有用的信息方面不那么友好。

开放思想/言论自由
这些人不断改变他们的项目名称。可能有些资金匮乏的公司一直在威胁他们,但我不知道。该项目看起来有点死。

我本周末可能会尝试训练Sphinx,看看它是否想成为朋友。更糟糕的是,我将考虑使用微软的语音解决方案。它在过去对我有用,但它不是一个很好的Linux解决方案。我可以通过葡萄酒使用它,但后来我将有两个独立的服务器......凌乱凌乱。

哦,这似乎是一个访问语音/语音的好地方 SpeechTechMag。他们有一个“年度参考”,其中包含一些公司名单,这些公司以某种方式将自己与语音/语音联系起来。


11640
2018-03-04 07:11


起源



答案:


主要是Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php


9
2018-03-04 07:14



使用它之后,实际上非常可怕。几乎没有认出任何东西,这并不像我有一种可怕的口音或任何东西。训练它似乎更是一个问题,除非你愿意为一些第三方数据库掏腰包放在堆的底部。 - guyumu
我没有任何实际经验./
这个问题很老了,但我想告诉Sphinx目前的表现。我使用了Sphinx 4并改编了WSJ模型,它给了我86%的准确率。 - Shekhar


答案:


主要是Java: http://cmusphinx.sourceforge.net/html/cmusphinx.php


9
2018-03-04 07:14



使用它之后,实际上非常可怕。几乎没有认出任何东西,这并不像我有一种可怕的口音或任何东西。训练它似乎更是一个问题,除非你愿意为一些第三方数据库掏腰包放在堆的底部。 - guyumu
我没有任何实际经验./
这个问题很老了,但我想告诉Sphinx目前的表现。我使用了Sphinx 4并改编了WSJ模型,它给了我86%的准确率。 - Shekhar


如果您有预算,sphinx是目前最好的选择。  然而它也是一个 巨大 区别你使用什么型号,如何调整它们  如何调整音频源。绝对一切都必须匹配否则它不会工作。考虑到你所描述的问题,你愿意下注一笔可观的金额,你已经让你的模型混淆了,你的麦克风没有正确校准。另外,如果你有口音它可能不起作用 - 这不是解码器的问题,而是声学模型 - 如果训练数据中没有包含类似于你的声音/口音的人,你将得到不好的结果。

那说,你看过他们的开源模型页面吗?

http://www.speech.cs.cmu.edu/sphinx/models/ 

根据您的尝试,您应该能够使用16kHz WSJ模型和千兆字符LMs NVP获得大约90%的自由语音准确度。但我要提醒的是,ASR是一项艰巨的任务,尚未达到商品地位。


3
2017-08-26 14:50



我想我已经意识到这一点,它还有很长的路要走。我是否有口音是主观的:D但很可能。我最近停止使用ubuntu并跳上了windows的潮流。当我继续这个时,我想我将有能力使用微软的引擎,这在过去一直有效。但最终......我认为技术还有很长的路要走,我想我将完全放弃这部分10年:) - guyumu
微软的引擎也曾经基于sphinx。现在我认为他们可能更依赖HTK,这是​​另一种开源语音识别系统。从ASR系统的角度来看,你的口音不是一个主观问题。结果将在很大程度上取决于您的声音特征与训练数据中的声音的匹配程度。对您而言可能看似微不足道的差异,例如加拿大与美国口音,可能会对ASR质量产生非常显着的影响。这些天大多数系统都依赖于相同的算法,不同之处在于数据。 - si28719e


你可以从下载vPass(语音密码) http://www.basic-signalprocessing.com

对于(vText)语音到文本,我可以将vText.jar文件发送到您的电子邮件。请通知enquiry@basic-signalprocessing.com

这些组件专为Java和.Net语言而设计。识别期限为5秒。 VPass经过充分测试vText不是,仍然是新的,这就是为什么不打包的原因。

问候, 安德烈亚斯


2
2018-01-10 16:28





我几天来一直在寻找同样的事情。到目前为止,我已经找到了Sphinx4和FreeTTS。两者都是java实现,而Sphinx似乎与FreeTTS不同,它经常更新。我遇到的唯一问题是Sphinx在办公环境中遇到了解我的问题,我需要一个仓库环境的解决方案。


1
2018-03-05 17:01





我的小组用Java编写了一个迷你程序来识别使用的数字 狮身人面像


0
2018-01-07 07:22