DSお料理ナビなどの音声は単純に音を繋げただけなのでどうしてもロボットの声みたいに聞こえてしまう。
例えば「ん」という音も、「たんてい」という時と「かんぱい」というときと「かんがえる」というときはそれぞれ、n,m,ngの音になっている。他の音に関しても、そのつながりで微妙に調音が違うため、自然な声を機械が発することは困難だ。
ところが、最近話題の「初音ミク」というソフトウェアではとても自然な日本語を使った歌声を作ることが出来ている。その作品群を見ても、このソフトウェアが職人魂に火をつけたのは間違いないようだ。
ではどうやってそれを実現しているのか。
一つはYAMAHAが開発した音声を自然につなげる技術があるが、もう一つが録音にあるようだ。
キャラクターボーカルを作る際には実際に声を担当する声優が録音を行う。なんと、その録音では日本語の全ての組み合わせを歌ってもらって収録するそうだ。実にアナログな作業なのだが、現段階で自然なボーカルを実現するにはこれしか方法が無いのではないだろうか。そう考えると、人間の発声のメカニズムというのは未だにどんなコンピューターにも及ばない複雑な仕様であるともいえる。
そういった努力の末出来上がったボーカルソフトなので、全ての声の組み合わせに対して違和感なくつなぐことができるようになったということだ。
言語学を専攻していた者として、この仕組みというのはとても興味があり、ぜひもっと研究をすすめてもらいたい分野だ。
しかし、ロボットはロボット声だからロボットであってロボット声じゃないロボットはちょっと恐ろしい気もする。
「あい」と「こい」の意味は違うが、「い」の音も違うのだ。
コメント