Old Boy のイラスト日記

イラストを中心とした創作日記

オヤジ声はボイスチェンジャーに向かないのか?

f:id:swingboys:20201212175113j:plain

ナレーションの収録

ムービー絵本の一冊目の制作を進めています。

会話よりもナレーション部分が多いので、全体を一人のナレーターの声でカバーすることにしました。要するに読み聞かせですね。

前回までは、ソニーボイスレコーダーで直接収録していましたが、今回はベリンガーコンデンサマイクと、ー48ボルトの供給のために同じくベリンガーの小型のミキサーを用いました。

録音はボイスレコーダーにライン入力としました。

思ったほどのノイズはなく、コンデンサマイクも指向性が強いせいか、ボイスレコーダー直よりも外部ノイズを拾いにくいように感じました。

また、オンマイクの音声は、レコーダー直よりもオンマイクらしい音声と感じられました。

ボイスチェンジしやすい声ってあるのか

このところご無沙汰していますが、DTM用にシンガーソングライターというソフトを所有しています。このソフトを製造販売しているのが、インターネットという会社です。最近この会社から音声専用のソフトが販売されました。Audio Input FXというソフトです。

内容的には、DTMソフトの機能を音声用にアレンジした程度のもので、DTMでは当たり前に使っている機能の寄せ集めに見えます。そのソフトの機能紹介のページに、ボイスチェンジャーによる音声変換サンプルが載っていました。

女性の声 → メグッポイドの声にボイスチェンジ

男性の声 → メグッポイドの声にボイスチェンジ

しているらしいのですが・・・、

 

crimsontech.jp

 

このリンク先のページ下にSOUNDCLOUDのプレイヤーがついています。

まず、女性の声。元の声と変換後の声がほとんど同じ。

男性の声。最初ちょっと低めの女声かと思いました。こんな高い声の男性ってそうそういません。変換した声はかなりきれいです。

ボイスチェンジャーのサンプルボイスの元声は、高い澄んだ声

多くのボイスチェンジャーソフトでは、サンプルボイスが紹介されています。特に男声から女声に変声したボイスはどのソフトもものすごくきれいな女声です。恐らく元声はハイトーンの澄んだ男声なのではないかと想像されます。

元声の音程が高いと、元声と変声後の音程の変化分が少ない分、ボイスチェンジャーの負担は少ないのでしょう。

では、オヤジ声の場合、ボイスチェンジャーがどう反応しているのかを見てみたいと思います。

今回制作している絵本の最初の一言は、

「たっくんはようちえんのねんちょうぐみです」

 です。この文言を私の地声で話した音声が以下です。

 

 

やや響く低音を含んだ音声です。この声をVocalShifterにかけてみると、

f:id:swingboys:20201212200414p:plain

ピッチについて、このような解析結果になります。

ブルーの面は、実際の音声波形です。

黄色の線が、解析されたピッチ(音程)になります。

線を見ると、ところどころが切れているのがわかります。線が上下に激しく移動していたとしても、線の終わりと次の線の始まりの横軸方向の位置が一致していれば解析できているとみなせるのですが、横軸方向にスキマが開いている場合、その部分は解析できていないようです。

この状態のまま、ピッチやフォルマントを変更しても、解析できていない部分は元の音声のまま残ってしまいます。

f:id:swingboys:20201212201250p:plain

そこで、右クリックで「波形のすべてを解析あり」とし、波形全体のピッチを強引に設定します。そしてここでは、ピッチを7メモリ(700 cents)、フォルマントを3メモリ(300 cents) に変更してみます。

上記値でボイスチェンジした音声は以下のようになります。

 

 

 何というか、ボコーダーにかけたような異様な音声です。ケロケロボイスっぽい。音楽的には面白いのかも知れませんが、ナレーションとしては不気味な感じです。

からくりはよくわからないのですが、解析の段階で、検出されたピッチ(音程)が基音と倍音の間を行ったり来たりしているように感じられます。

この結果から見ると、ボイスチェンジャーは、低音が響くようなオヤジ声のピッチ解析はどうも苦手らしい、ことがわかります。

解決案のひとつ

ボイスチェンジャーが解析しやすいだろう音声として、無理無理ハイトーンで話してみました。

 

 

お聞きしてわかるように、響くような低音は入っていません。ただ、どう聞いても上ずったようなおかしな話し方です。それはそれとして、この音声を解析すると、以下のようになります。

f:id:swingboys:20201212202920p:plain

黄色の曲線で示された解析波形は、ほぼほぼ完ぺきにつながっているのがわかります。

このままでもいいのかも知れませんが、念のために「波形のすべてを解析あり」として、ピッチ700、フォルマント300でボイスチェンジした音声は次のようになります。

 

 

かなりきれいにボイスチェンジされているのがわかります。

ボイスチェンジャーについて完ぺきにわかっているわけではない

こちらはあくまでも使い手であり、ボイスチェンジャーアルゴリズムや性能を完全に理解したうえで使っているわけではありません。

このアプリにしても、ちょっとした設定で、オヤジ声が問題なく解析できるのかも知れません。ただし、今のところはデフォルトの設定のまま使っています。

老若によらず低音が響く男性は少なくないと思いますので、そうした低声もデフォルトでカバーされるべきものと思います。

低音加工した場合

男声から女声の場合、ピッチを200%(1オクターブ)にする場合があります。この場合は、ボイスチェンジャーの負担が大きいせいか、音声の品質が極端に下がります。

しかし、男声のピッチを下げる場合、低音が響く男声であっても比較的きれいにボイスチェンジされます。男声のピッチを100とすると、これを50まで、つまり1オクターブも下げることはあまりありません。

つまり、男声から女声に変化さえる場合に比べると、男声から別の男声に変化させる場合は極端な設定にすることはあまりないということになります。そのせいで問題が起きにくいのかも知れません。

実際、1オクターブも下げると、人間というよりも、モンスターボイスになってしまいます。ここまでいくと、ピッチが解析できているかどうかなどあまり気にならず、不具合がモンスターボイスらしさに効果的に働いてしまうのかも知れません。

ボイスチェンジャーにとって解析しやすい声

響くような低音がなければ、ボイスチェンジャーはきれいにピッチ解析できることがわかりました。ただし、あくまでも低音から高音に変化させる場合に問題になりやすいということであり、低音をさらに低音にする場合は、あまり問題にならないこともわかりました。

ハイな声を出す以外にも低音の入りにくい発声の仕方はあると思います。今後は、そうした発声を行った場合、ボイスチェンジ後の音声がどうなるかを確認してみたいと思います。