admin 管理员组

文章数量: 887017

1       Kaldi简介

Kaldi是一个开源的语音识别工具,整合了HTK的基本功能,同时也加入了深度神经网络的分类器(DNN)。可实现与文本无关的LVCSR系统,基于FST的训练与解码,支持多种标准的机器学习训练模型。

Kaldi相关文档可参考官网:http://www.kaldi-asr/

Kaldi内核采用c++语言编写,易于修改和扩展。有如下重要特点:

Ø  有限状态转换器(FSTs)的Code-level集成;

Ø  广泛的线性代数支持,矩阵函数库中包含标准BLAS和LAPACK运算;

Ø  可扩展性设计,算法采用最通用形式;

Ø  开源,Apache2.0许可,支持修改和重新发布;

Ø  包含语音识别系统搭建的完整框架,从LDC等数据库可以直接工作。


需要明确的是Kaldi的目标受众是专业的语音识别研究人员或有一定基础的自学者。短期内,Kaldi的文档中不会出现像HTK那么多关于统计语音识别的介绍性资料。

Kaldi的其他特点:

Ø  强调通用算法和通用框架;

Ø  算法正确性,不会出现突发性fail;

Ø  代码完全测试过;

Ø  保持功能简单,每个命令行实现有限的功能;

Ø  代码易于理解;

Ø  代码易于复用和重构。



2       系统要求

2.1 最理想的计算环境

使用Sun Grid Engine 的linux机器集群,通过NFS或类似的网络文件系统访问共享目录。网络上的计算机采用NVidia的GPU,用于神经网络训练。

SunGrid Engine(现在叫做OracleGird Engine)是一套开源的分布式资源管理软件,用来统一管理和利用所有(愿意被管理的)电脑上的资源,使得这些电脑(集群)使用起来就像一台电脑一样,好处是可以随意扩展总的计算资源(买更多的电脑加入集群),并且管理上就像使用一台电脑一样方便。使用者只需要把需要计算的工作准备好,提交到Sun Grid Engine (SGE),SGE就会根据已经订好的管理策略以及使用者的需求在集群里找到合适的电脑来完成计算工作。SGE主要用在高性能计算、网格计算等领域。

2.2 最低条件的计算环境

任何Unix-like环境,可以运行在单个机器,但是这样会比较慢,并且要尽量减少机器上运行的其他程序,避免内存耗尽。Kaldi在Debian(开源)和RedHat(商业)环境测试结果最好,但是也可以运行在任何linux分布的环境,或者Cygwin/MacOs X环境。

2.3 建议新手使用Ubuntu系统

下面简述Win7和Ubuntu14.04的64位双系统安装方法,并设置从Win7引导Ubuntu,这样删除Ubuntu系统时不影响Win7正常使用。(建议使用Ubuntu14.04版本,不建议更新版本,可能会出现兼容性问题)

步骤一:硬盘划分出空白空间。

右键我的电脑 —> 管理—> 点击“磁盘管理”—> 选择一个磁盘—>右键选择压缩卷—>设置压缩空间量—>压缩。压缩后的磁盘变成未分配空间,这部分用于ubuntu系统安装。

步骤二:用UltraISO刻录Ubuntu镜像文件到U盘。

打开UltraISO软件,在上方选择“打开”—>找到本地的ubuntu14.04镜像文件—>打开;选择“启动”—>写入硬盘映像—>检查弹出窗口设置(按默认设置即可)—>写入。Ubuntu镜像文件官网下载慢,可以到这个网址下载:http://mirrors.xmu.edu/ubuntu/releases/14.04/(32位ubuntu-14.04.4-server-i386.iso,64位

本文标签: 工具包 语音识别 简介 kaldi