PIT(ピッチ)-加筆中-

 ピッチとはすなわち、音程のことである。音程と音声の周波数は音程が1オクターブ上がると、周波数は2倍になるという関係があり、1オクターブは12半音(半音は音程の単位)になる。この関係については詳しく触れないので

などを参照するといいと思う。また、各音階には名前があり、ここでは440[Hz]をA4の基準として、低い音から、ABCDEFGの順に名前を振っている。各アルファベットの後ろについている数字はオクターブを示しており、数字が大きいほど高い音である。ヤマハ式とかいう表記法もあるがサポートしないと思う。でもVOCALOIDはヤマハ製なので、気まぐれでそっちを使うかもしれない。とりあえず、相対的な音程のみを問題にするつもりなので、そういう細かいことは気にしなくていいと思う。当の私は楽典がわからない……

 話がそれたが、人間の歌唱ピッチと、「楽譜通り」のピッチの差異を調べていこうと思う。当面は、大学の先輩が提供してくれた歌声データを解析していく。歌いまわしや声質などの個人差もあると思われるので、必要が生じれば順次ほかの方の協力も仰いでいきたいと思う。
 まずは下にある図1を見ていただきたい。

図1:楽譜通りの音程(黄)と、実際の歌唱の音程(ピンク)の比較

 これを見ただけで曲名がわかる人はカラオケスコアラーかピアノロールに慣れたDTMerとかだと思う。普通は読み方がよくわからないと思うので補足すると、横軸は時間、縦軸は周波数のドメインから見た歌声の一部だ。線が高い位置にあるほど高い音で、右に行くほど時間が過ぎていく。なお、解析に用いたソフトはAckie Sound様のVocal Shifter LEである。Ackie Soundさんでは、開発されたソフトウェアの仕様や処理について幾つもの日本語ドキュメントを残されているので、音声系のソフトウェアを開発する際には見ておいて損のないホームページだ。

 で、図1を見ると、実際の人間の歌声を解析したピッチは、「本来の音程」ピッタリとは程遠いところを言ったり来たりしているのがわかると思う。しかし、この揺らぎは決して不快なものではなく、むしろいい意味で人間らしさを付与するために重要なパラメータと言えるだろう。
 もう少し詳しく見ていくと、まず、音節の変わり目からしばらくの時間、ピッチは低いところから高いところへと遷移していることがわかる。これがいわゆる「しゃくり」とかいうやつで、これがあると歌に力強さとか感情とかが一気に注ぎ込まれる。ボーカロイドのいわゆる調教においても、音符分割ないしPITカーブの描画によって実現される初歩的かつ有効なものの一つだ。しゃくりは、主に低音から高音への推移の中で生まれると私は思うが、明確にそれを示せる資料が手元にないので無視してもらって構わない。
 ここからは

をもとに説明する。これを、以降産総研の資料と呼ぶことにする。また、以後の説明は、前述の資料を私なりにかみ砕いたものを基に説明しており、事実との相違がみられる可能性があるので、産総研の資料から引用しているものについては、上記の資料と照らし合わせて参照願いたい。
 まず、産総研の資料内、図-1を、以下に当資料図2として示す。

図2:歌声における4種の基本周波数(F0)動的変動成分

  F0とは人間の歌声における第0フォルマントのことで、ここまでに示したPITと同様の働きを持つパラメータと言って差し支えない。ここに示されている「プレパレーション」「オーバーシュート」「微細変動」「ヴィブラート」については、産総研の資料において、次のように説明されている。

オーバシュート:滑らかな音高変化,及びその直後に目標音高を超える瞬時的な変動成分
ヴィブラート:同一音高区間で観測される4∼8Hzの準周期的な変動成分
プレパレーション:音高変化直前に変化とは逆方向に触れる瞬時的な変動成分
微細変動:発声区間全体に観測される不規則で細かい変動成分

 また、それぞれのピッチの揺れ幅、及びビブラートの長さは歌唱法や個人による差が出るものなので、ここではその長さ、大きさについては厳密に考えないこととする。
 以上のパラメータをボーカロイドで再現するためにPITをどのようにいじればいいかを考えたい。

-以降追記予定-

powered by crayon(クレヨン)