2010年04月13日

表情差分スペクトルの適用について。

ひとつ前のサンプルについて一応文章にまとめておきまする。
cresc.やdecresc.に伴う声質変化は一番下に挙げてある文献で、
スペクトル変化と音量変化の関係を書いたものがあったので、
似たようなことが出来ないかというレベルの発想。

---
 声の強弱・ハリなど歌い手や作曲者にとっては(たぶん)ある程度共通のイメージがあるはずなので、強い声・弱い声といったイメージで発声された声の差をスペクトルから求めて適用すれば、声に”強い”-”弱い”と言った表情を容易に付加できると考えた。

 そこで"強い声"のイメージで発声された声の平均STRAIGHTスペクトルと、"普通の声"のイメージで発声された声の平均STRAIGHTスペクトルを求めた。
 "強い声"と"普通の声"とが別々に収録されたUTAU用の波形データから、各々5母音の波形を使用し、UTAU原音設定の固定長以下を安定した発声と仮定し以後各々100msのスペクトルの平均を求めた。抜き出した2048次元のSTRAIGHTスペクトルをユークリッドノルムが1になるように正規化したスペクトルを代表データとして使用する。
 STRAIGHTの分析によって得られるスペクトルは調波構造が平滑化され取り除かれたスペクトルであるから、各々から得られたスペクトルSpsとSpnとしたときSpsとSpnは平均された声の特徴のみを表していると考えてよいだろう。ここで、声に"強さ"を与えるSTRAIGHTスペクトルへのフィルタをH[f]とすると、

Sps[f] = H[f] Spn[f] ( f: 周波数 )

で強い声のスペクトルSpsがSpnとHから得られると考え、このフィルタH[n]を求めた。実際に適用した例は以下のようになった。



---
参考文献:歌唱音声制御に伴うスペクトル変動の主成分分析と合成への応用について(吉田 有里 , 森勢 将雅 , 高橋 徹 , 河原 英紀 )

手持ちの道具が少ないのでより楽な方法を取ってますが。

堅い文章は苦手、というか書いたことないし。ノルムで正規化するのが正しいかは分からないし、その上で対数の差(というか除算)で求めた差分スペクトルフィルタを適用する形でいいのかも分からないです。個人的には聴感上問題ないように思えるのでこの実装でいきたいと思います。
難点は、抽出するデータによって響きが変わること。
強い声ってなんじゃらほい、というのはもう少し勉強しながら調べます。
posted by HAL at 12:00| Comment(0) | 日記 | このブログの読者になる | 更新情報をチェックする
×

この広告は1年以上新しい記事の投稿がないブログに表示されております。