【音声合成】深層学習によるテキスト音声合成の飛躍的発展
Vol.105 No.5pp.413-417
発行日:2022/05/01
Online ISSN:2188-2355
Print ISSN:0913-5693
種別:特集 深層学習は情報・システムの研究をどう変えたか
専門分野:
キーワード:
テキスト音声合成, 生成モデル型音声合成, 深層生成モデル,
本文:PDF(613.8KB)>>
あらまし:
テキスト音声合成では,音声波形を自動で切り貼りして所望するテキストに対応する音声を合成する,波形接続型音声合成が主流であった.一方,条件付生成モデルを用いてテキストと音声の関係を学習し,これから任意のテキストから音声を合成する生成モデル型音声合成は,声色を少量の音声で変換できる等の利点があるが,合成音の自然性に課題があった.過去約10年間に深層学習が生成モデル型に導入され,性能が飛躍的に向上した結果,高い自然性を保ちつつ柔軟に話者性や韻律を制御できるようになった.本稿では,深層生成モデルの導入がテキスト音声合成に与えた影響について考察する.