何で今まで読んでなかったのかといわれると、不勉強だから…
じゃなくてよもや自分でやるとは思わなかったからです。
テト声にたぶらかされました。
数時間もかけずに斜め読みしたのでかいつまんで面白そうなところを。
勘違いしてたらごめんなさい。
1.STRAIGHTの根幹について
これは全く載っていない(あれ〜)。日本音響学会誌にある模様、もしくはIEEE EUROSPEECH'99に載っているみたいです。STRAIGHTについてはこちらでのんびりスペクトルとにらめっこすることになりました、あぅ。とりあえずそれは視覚化するとして、詳細な論文は近場の図書館で置いてあるのが東大だけらしいので、いざとなれば…外部者でも入れたっけ?
とりあえずSTRAIGHTでもやっぱり低音は苦手みたいです。TANDEM-STRAIGHTと進化したバージョンではさほどでもないと書いてあったので、TANDEMも試してみようかと思います。
2.VOCALOIDの合成手法
一時期話題になっていましたが、UTAUの先行発音がYAMAHAの特許に触れる?→大丈夫、な話のところで出てきた、母音より前に子音置いてパラメータがどうのこうのの部分の解説がYAMAHAの名義であった。
どうも母音開始時点をリズムの頭にするだけでなく、子音部分からのピッチ変動等もパラメータで指定しているようです。C→V,V→Cの全ての音節を網羅し、それに対してピッチなどをパラメータで操作しているんだとか。子音等立ち上がりの部分の音程なんかも全てパラメータで保管しているらしい。
基本的には網羅してしまえば問題無いだろう、的な書き方がされてた。
3.話し声→歌声変換ツール
なんかそんな研究あったね、と言いつつこれが今一番欲しかった情報かもしれない。
a.)歌声フォルマント
4kHz周辺にオペラ歌手から発見された云々かんぬん。
このあたりにF4があって、そこが話し声と比べて12dbほど強調
されているのが歌声らしい。ポップスでもそうらしい。
論文だとこの周辺のスペクトルを増幅して、いい感じの響きを
得たとかなってた。式は覚えてないけど、複雑なものじゃない。
b.)F0(音程)の動的変化
i.)シュート
アタック部分は目的の音程よりいったんちょっと上に飛び出る。
ii.)ビブラート
その後3〜4Hz(?)程度の揺れが乗る。
音量が同期して独特な揺れを持つ、が正解みたい。(10/07追記)
iii.)微細振動
声の揺れ。
iv.)プリパレーション
リリース部分は一度落ち込んでからポルタメントする。
このあたりは確かに自動で生成した方が楽そうな気がする。
僕より詳しい解説をvocasimの和泉様が書いていらっしゃるので割愛。
http://akira-izumi.cocolog-nifty.com/patent/2008/07/vocasim004.html
ちなみにF0のラインについては画像を用意しました。
上がリンちゃん、下が友人にみなそこの冒頭を歌ってもらった波形を
何かのフリーソフトで解析しました。vocasimシミュ挑戦の名残です。

c.)母音等による発音の変化
どのサンプルデータをとっても母音間の変化は100msくらいらしい。
さらっと流されてたし、この数字をどうみるかだなぁ…
d.)総括
シュートは大事。シュートとビブラートを合わせたらいい感じ。
歌声フォルマントでもっといい感じっていう論文だった。
4.その他雑感
感情合成については論文があったのですが、結局、喜・怒・哀で歌ってもらったデータをパラメータで合成するらしい。レイヤー増やして合成したのもあるらしいけど、この方向だと辛いよねってことみたい。
んじゃあ何が感情なんだってところはさぱーり分からないから、みんなでサンプル持ち寄って解析したいね、って論文があった気がします。
とにもかくにも人がいないんだろうというのが何よりの感想。
日本音響学会誌を読んでいないのですが、情報処理学会ではVOCALOID熱にあてられた若い研究者達がこぞって実験しているようなイメージ。このあいだMMDであったハープの演奏動画と同じように、ショパンの楽譜から手の動きを再現しようなんていうのもあった。
正直な話お金にならないってところなのかな。河原教授のスキャットの生成の論文に、21世紀は豊かさを求めて夢のある研究を、的なことが書いてあったんですが、こういう方面は面白いと思うんだけどなぁ。
とりあえず、やったもん勝ち、的な感じに見えた。みんな楽しそうすぐる。
あ、後ミックスは残響音と直接音を一定の比率になるようにやっているっぽい、って論文があったのですが読み飛ばしちゃった。興味のある方はぜひ読んでみるといいかも。
音声合成に限らず、結構面白いものも多いと思います。