我正计划编写一个使用文本到语音和语音识别的Linux程序。有什么最好的工具/库?我应该使用Windows代替能够使用更好的工具吗?这些工具需要可以从控制台或C程序轻松调用。
我正计划编写一个使用文本到语音和语音识别的Linux程序。有什么最好的工具/库?我应该使用Windows代替能够使用更好的工具吗?这些工具需要可以从控制台或C程序轻松调用。
对于语音识别,有各种各样的 狮身人面像。不同的变体有不同的优点和缺点,这里有一个比较 Sphinx版本的比较。我相信Sphinx 4是Java,但其他是C语言。
这在很大程度上取决于你试图识别的是什么语音。
这是2005年的一篇文章,解释了创建听写程序的一些困难: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html 。如果你想要的话,那就是 朱利叶斯 语音识别引擎似乎很有前景,但您需要添加自己的声学和语言模型。你也许可以使用 voxforge 声学模型。
如果你不想写一个听写程序那么你就有了一个更容易的任务。指令程序的词汇量有限,例如“如果你想继续使用英语,请说”英语“。
使用pocketsphinx和gstreamer可以获得相当不错的效果 一个程序 自动编辑大多数单词“推特“走出困境 TWIT 播客。在我根据播客的成绩单使用我自己的语言模型之前,它根本不起作用;来自语音识别器的机器转录是无用的/搞笑的,但是他们可以找到关键字。
对于语音识别,有各种各样的 狮身人面像。不同的变体有不同的优点和缺点,这里有一个比较 Sphinx版本的比较。我相信Sphinx 4是Java,但其他是C语言。
这在很大程度上取决于你试图识别的是什么语音。
这是2005年的一篇文章,解释了创建听写程序的一些困难: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html 。如果你想要的话,那就是 朱利叶斯 语音识别引擎似乎很有前景,但您需要添加自己的声学和语言模型。你也许可以使用 voxforge 声学模型。
如果你不想写一个听写程序那么你就有了一个更容易的任务。指令程序的词汇量有限,例如“如果你想继续使用英语,请说”英语“。
使用pocketsphinx和gstreamer可以获得相当不错的效果 一个程序 自动编辑大多数单词“推特“走出困境 TWIT 播客。在我根据播客的成绩单使用我自己的语言模型之前,它根本不起作用;来自语音识别器的机器转录是无用的/搞笑的,但是他们可以找到关键字。
对于语音识别,Linux的存在很少。我只知道一个显然不错的选择,IBM几年前发布的东西,但后来不再可用(任何人都知道这个ViaVoice SDK是否仍然可以从任何地方获取?)。有关于可能的选项的更多信息 维基百科。
对于Debian / Ubuntu文本到语音,还有SVOX Pico:
sudo apt-get install libttspico-utils
我知道 espeak的 是一个非常好的Linux文本到语音程序(它甚至可以做不同的口音!),但我不知道任何为UNIX设计的语音识别系统。
at&t fsm工具包也很棒 - 虽然不允许商业用途,
这有点旧,但我在几天前看到了关于Hackaday语音识别的相当全面的指南: http://hackaday.com/2010/07/09/get-started-with-speech-recognition/
http://simon-listens.org/ - 西蒙开源语音/语音识别程序
然后有mbrola用于文本到语音。
您是否检查过基于HMM的语音合成文本到语音转换。您可以在网站上找到免费的演示 http://hts.sp.nitech.ac.jp/。安装会有点繁琐。