admin 管理员组文章数量: 887021
2023年12月21日发(作者:入职git使用的基本流程)
绪论
1、一种方法好。不过,
因为这种方法所采用的合成单元是原始的语
音文件所以合成出来的语音清晰度要优于前一种方法。基于这
,
语音合成(
Text To Speech,
TTS)
是一门涉及声学、语言学、
一 技 术 的 合 成 方 法 有
TD- PSOLA,
FD- PSOLA,
LP- PSOLA
基 于
1]作为数字信号处理技术和多媒体技术等多个领域的前沿技术[。
语料库的合成方法等[2]。
智能计算机研究的主导方向和人机语音通信的关键技术之一,
语音合成的平滑处理技术
3、语音合成一直受到各国语音学界的广泛关注。
3.1
平滑处理算法
本文在研究了当前最新语音合成技术的基础上,
着重研究
为了使得合成语音更加平滑,
减少咔哒声出现的频率,
最为
了基于波形拼接的语音合成方法,
并采用基于时域平滑技术对
常用的方法就是使用较大的合成基元。较大的合成基元意味着
合成语音进行平滑处理,
从而减少拼接点处的语音失真和突变。
合成时拼接点的减少,
自然咔哒声也会随之减少。不过这种方法
最后实现了一个机场等级播报的语音合成应用,
获得了较好的
3]带来的矛盾就是相应的要增加语音库的容量[。
合成效果。
语音合成技术
2、在得到拼接基元之后,
需要把它们按顺序拼接起来组成所
语音合成技术是指用计算机产生高清晰度和高自然度的语
音, 主要包括发声器官参数合成法和拼接合成法两种技术2[]。
2.1
发音器官参数合成法
发音器官参数合成法的基本思想是对人的发音过程进行直
接模拟,
它由声源参数、发音参数和辐射参数三类共七个左右的
控制参数控制合成器的语音输出。这种直接基于对人发音机理
探讨合成语音的方法非常理想,
理论上讲应该能合成逼真的声
音。但由于人们发音生理过程非常复杂,
这三类参数的获取比较
困难,
发音器官的动态特性很难建模,
而且这种技术所要求的计算量非常大,
所有这些因素都给实际的应用这种方法造成了很
大的困难,
这使得它目前还仅限于实验室研究阶段,
离实际的应
用还有一定的距离。
2.2
拼接合成法
语音拼接合成法的基本思想是先存储合成语音的基元,
在
合成时根据合成文本要求,
从语音库中读取基元,
通过拼接、韵
律修饰,
最终得到合成的语音。这种方法存储的语音基元是取自
于自然语音中的词或句子,
它隐含了声调、重音、发音速度变化时的细微特性,
合成的语音清晰自然,
其质量普遍高于规则合成,
但韵律参数修改范围受限。语音拼接合成技术可以细分为基
于语音编码的拼接合成技术和基于波形拼接的合成技术。
基于语音编码的拼接合成技术通常先将语音单元切分成适
合的合成单元,
再对每一个切分出来的合成单元进行信号处理,
提取出适合的语音参数,
将这些切分单元的语音参数建立一个
语音库。在合成阶段先选出合成单元,
然后从语音库中提取出相
应的语音参数,
接着按照韵律的要求,
将这些语音参数进行时
长,
基频的变换,
最后使用重叠相加的方法重建语音。目前基于
这种技术的方法很多,
常见的有共振峰合成,
LPC
参数合成法,
Sinusoidal
方法等[2]。
基于波形拼接的合成技术通常是先将语音单元切分成适合
的合成单元,
然后将这些切分好的合成单元建立一个语音库。在合成阶段先选出合成单元,
然后从语音库中提取出相应合成单元。对这些单元按照韵律的要求,
进行时长,
基频的变换,
最后使
需语音文件进行输出,
如果把它们直接拼接起来而不做任何处
理,
在拼接边界处由于数据的不连续会产生一些噪声,
因此,
基元间在拼接时要进行平滑,
以有效地消除边界处的不连续,
这对于改善合成语音的自然度有很重要的作用。
常用的语音平滑方法有:
最佳连合法(
Optimal Coupling) ,
波
形插值法(
Waveform Interpolation) ,
线性预测参数插值法(
Linear
Predictive Parameter Interpolation) , 连续效应法
(
Continuity Ef-
fect) ,
基于傅立叶变换的频谱平滑方法和基于时域的平滑方法。本文选取了基于时域的平滑方法,
具体算法如下:
其中,
取
R
为平滑长度
,
S1(
n)
即待平滑的两段波形交叉的长度,
S(
n)
为
前一段波形中对应于
S(
n)
的样本点,
S2(
n)
为后一段波形中对应
于
S(
n)
的样本点。
3.2
实验结果
如图
1
是平滑前后波形变化对比图。上图是直接拼接不做
任何处理的波形图,
它的拼接点有很明显的跳跃感觉,
下图是拼
接的同时进行平滑后的语音波形图,
从波形可以看到语音波形
变得连续自然。
图
1
平滑前后波形变化对比图
如图
2
为平滑之后语谱图变化对比图,
上图是直接拼接不
行平滑处理,
消除边界处的不连续,
最后输出波形图,
播放语音。
通过对每个拼接点的平滑长度
R
进行调节,
使合成效果达
到相对较好。由于原始语音录制质量和拼接基元较大的原因,
经
过平滑后的合成语音,
在听觉上变化不大,
只是减少了一些停顿
和突变的感觉。但是从波形图和语谱图上分析每个拼接点,
发现
拼接痕迹明显减少,
前后语音片段之间波形连贯,
语谱图上能量
分布均匀,
如图
4
是登机语音的一部分平滑效果图。
图
2
平滑前后语谱图变化对比图
对于本实验所使用的语音基元,
交叉
长度的选取是很重要的。通过实验得出,
每
个拼接点的交叉长度各异,
依录音片段的
质量而定,
这样既可以保证合成后字与字
之间的读音连贯、流畅,
又可以使读音清
晰,
提高了合成语音的自然度,
改善了合成
4]
效果[。机场登机播报应用
4、本文以机场登机时播报的语音片段为
例,
进行语音波形拼接合成实验。首先录制
好整个句子"
各位 旅 客 往 北 京 的
BJ101
,
前
次航班现在开始登机,
请前往
1
号登机口
办理登机手续"
。利用
Wavesurfer
剪切 掉"
北京、BJ101、1"
这三个关键词,
并在剪切位
置做好标记,
形成一个模板语音。
结论
5、
图
4
登机语音的一部分平滑效果图
图
3
登机播音界面
本文在研究了当前最新语音合成技术的基础上,
着重研究
了基于波形拼接的语音合成方法,
并采用基于时域平滑技术对
合成语音进行平滑处理,
从而减少拼接点处的语音失真和突变。最后实现了一个机场等级播报的语音合成应用,
获得了较好的
合成效果。
参考文献:
1.朱维彬,吕士楠.基于语义的语音合成-
语音合成技术的现状及展望[J].
北京理工大学学报,2007,1(5):
408~411.
rs. Matlab
之语音处理与合成工具箱[M].
北京:
清华大学出版社,2004.
3.R ichard Sproat. Multilingual text analysis for text - to - speech synthesis[J].
N atural Language Engineering, 2006, 2(4):369- 380.
4.
方亮.
现代汉语普通话语音合成系统的设计与实现[D].
中国科学院自
动化研究所,2006.
再 录 制 多 个 关 键 替 换 词 如 目 的 地 州 上 海 等 班
,
比
:
杭
、;
航
号:
HZ110、SH105
等;
登机口:
2、3
等。
图
3
是登机播报的信息选择界面。界面中"
目的地"
下拉菜
单是目的地选择,
"
航班号"
是航班号选择,
"
登机门"
是登机口选
择。在已选择上面三项的前提下,
"
合成"按
键的功能是把已选的
三个关键替换词拼接到模板语音中事先标注的相应位置, 最后
合成一段完整的语音,
并输出波形图,
播放合成语音。
"
平滑处理"
按键的功能是将拼接合成的语音在拼接点处进
(
上接第
143
页)
Get 1, , datachunks()
("datas").AppendChunk datachunks()
Close 1
End If
End Sub
4.3
学生机硬盘物理序列号和学生学号绑定
4.2
数据传输的防错设计
因为学生经常对所用电脑的设置进行修改,
包括
IP
地址、
机器名、甚至网卡地址。另外学生机常常因为未知原因出现严重
故障而恢复系统或者重装系统,
所以其硬盘逻辑盘号也常改变。
故而用以上各种途径和学生学号绑定都是不安全的,
所以采用
机器硬盘物理序列号和学生学号绑定的方法最为安全。机器的
硬盘物理序列号不能人为改变,
除非更换硬盘。编程提取本机硬
盘物理序列号需要调用
API,
因为文章篇幅原因代码省略。
的代码一旦出现执行异常,
程序将自动转向到
GO TO
语句所指
5.后记
该系统自设计完成后,
经过学生上机课反复使用验证,
几经
向的语句。这样如果把整个数据传输程序放在
ON ERROR
结构
学生也因作弊困难而感到
中,
当执行数据传输的过程中,
程序一旦出错,
则马上会发生跳
修改,
使用方便,
效果良好,
性能稳定。任务压力,
提高了学习积极性, 从而促进了整体教学效果的提
转,
按异常机制处理。
高。
重要代码如下:
要保证数据的完整与正确性,
就要在程序设计过程中保证
在文件分包传送过程中不能出错,
一旦出错,
就要把此次传输过
程作废,
重新再来。在此设计过程中要充分利用
VB
的除错机
制。
VB
的除错机制即其
ON ERROR
语句结构,
此结构所包含
On Error GoTo erro
"select * from pic where hdid=' " + hdid + "' and users=' " + user + "
' ", con, adOpenKeyset, adLockOptimistic, adCmdText '
使用开放式锁定方式
Exit Sub
erro:
If e = True Then Unload Form2
服务器忙或者所填内容有错, 请重新上传! " MsgBox "
e = True
参考文献:
1.
陈英.Visual Basic
程序设计 第二版[
M
]
.
大连:
大连理工大学出版社
,
2003,
2
: 清华大学出版社 ,
2.
刘炳文.Visual Basic
程序设计简明教程 [
M
]
.
北京
2006,
2
3.张蒲生.数据库应用技术
SQ L Server 2005
基础篇[
M
]
.北京:
机械工业
出版社,
2008,
3
版权声明:本文标题:基于波形拼接的语音合成技术研究 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.freenas.com.cn/free/1703171421h440859.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论