Old Boy の創作日記

音楽、イラスト、文章に関する創作日記と独り言。

ナレーションのための音声変換とそのツール

f:id:swingboys:20201122143806j:plain

ただ今、マンガ動画やムービー絵本のためのナレーションの録音や編集を行っているところです。基本的には私がひとりで複数のキャラを演じているのですが、声優でもない私が老若男女を演じるにはボイスチェンジャーなどのツールが必須です。

今回は、男声ー>女声変換について、主に「恋声」と「VocalShiter」という二つのツールを用いて試してみた結果をご紹介します。

ネットでは一般にボイスチェンジャーアプリが紹介されている

Youtubeなどの動画で使われている音声は、想像ではありますが、

  1. 自らの声や友人、知人、家族などの声
  2. プロ、セミプロの声優やトレーニングにより様々な声が出せるようになった方
  3. ボイスチェンジャーを使用して声を変えている方
  4. 音声読み上げソフト(ボカロ含む)

がほとんどを占めていると思われます。

かく言う私も、現在作成中のマンガ動画サンプルでは、「恋声」というフリーのボイスチェンジャーアプリを用いて、(自称)防音室で録音したデジタル音源をバッチ処理で変換しています。

フリーのボイスチェンジャーには、「恋声」以外に、Gachikoeやバ美声などのフリーソフトがあり、もちろんそれらも試しました。

Gachikoeとバ美声は、その使用がリアルタイムを主体としています。録音機からPCに入力することで処理ができないわけではありませんが、やや使いにくいこともあり今回は用いないことにしました。

録音環境

録音環境は、非常にプアです。上の写真にあるSonyボイスレコーダーの内蔵モノラルマイク(コンデンサーマイク)を用い、そのマイクに向かって話しかけているだけです。

最初はマイクに向かって直接声を発していましたが、ポップノイズがひどく、ごく最近、ポップガードを使うようにしました。

音声変換ソフト

音声変換には、ボイスチェンジャーソフトの「恋声」とボーカル編集ソフトの「VocalShfter]を用いました。

オリジナルボイス

 以下の音声が私の地声(ささやき声のつもり)です。これがオリジナル音声となります。

 恋声による男声女声変換

恋声では、Pitchを200(1オクターブ高い音)に、Formantを119%としました。

f:id:swingboys:20201122152607p:plain

恋声は、基本的にピッチとフォルマントをパーセンテージで指定するだけで変声が可能なシンプルなソフトです。さほど悩むことなく操作できると思いますので、操作の詳細はここでは省略します。

しいて注意点を上げるとすれば、プリセットの「ボーカルの音域」が男声の周波数をカバーしきれないことがあります。声の音域がMinの値を下回る場合は、この値を下げる必要があるかも知れません。この設定を下回ると、ピッチを認識できないのか、ノイズのような音声になることがあります。 

この設定で、オリジナル音源を変換した声が次になります。

 ざらついた音声ではありますが、まあ、こんなもんかというところです。

気になる点があるとすれば、オリジナルでは聞こえていないポップノイズのような音がかなり入っています。原因は不明です。

VocalShifterによる音声変換

VocalShifterはボーカル用の音声調整ソフトです。フリー版と有料版がありますが、個人で使う分にはフリーの機能で十分です。単体のしかもフリーウェアでここまで完成度の高いボーカル用ソフトはすごいの一言です。もしこれ以上のソフトを求めるなら、現場で使われているMelodyneというソフトを選ぶことになるでしょうか。

使い勝手も悪くありません。

f:id:swingboys:20201122154257p:plain

基本操作画面

基本の操作画面はこんな感じです。今回対象としている音声データを読み込んだ状態です。

ボーカル用、音楽用としてはごくありきたりなインターフェイスですが、音声変換機能だけ必要な人にとっては、このような面倒な見姿はちょっと敬遠したくなるかも知れません。

f:id:swingboys:20201122154555p:plain

編集画面

編集対象の音声データをダブルクリックすると、このような編集画面がポップアップされます。黄色の線が解析されたピッチです。

よく見ると、黄色い線がところどころ切れているのがわかると思います。切れている部分は、ピッチが解析できていない部分で、この部分に対しては、ピッチを変更したり、フォルマントを変えても変換されず、オリジナルの音声がマダラ状に残ってしまいます。

f:id:swingboys:20201122155108p:plain

ピッチを1オクターブ上げるには、8度上げを指定

とりあえずこの状態で、ピッチ(音程)を1オクターブ上げてみます。ピッチは、直接波形をクリック&ドラッグでもいいですし、マウスの右ボタンで音程などを指定することで変更できます。直感的にも、また数値を用いた正確なシフトも可能です。

f:id:swingboys:20201122155855p:plain

1オクターブ上げ。元のピッチは赤の線、変更後のピッチは黄色で表示される

この変換による音声が次のようになります。

聞いていただくとわかりますが、ピッチ解析ができていない部分はオリジナルの音声のまま残り、意味不明な音声になっています。最初は、これがこのソフトの限界かと思っていました。

一旦変換したデータを元に戻します。右クリックで、初期化すれば、元に戻ります。

f:id:swingboys:20201122160402p:plain

初期化でオリジナルに戻る

ピッチ解析ができない部分については手動で指定する

このVocalShiterというソフトは、フリーにしてはマニュアルが非常に充実しています。ただ、今回のようなピッチ解析ができていない部分については「手動で指定せよ」とあるだけで、その方法があいまいです。

解析したい一連のナレーションについては、その全体をまず選択します。

f:id:swingboys:20201122160937p:plain

クリック&ドラッグで、解析したい一連の音声を指定する

選択した部分は、ブルーに変化します。そして、右クリックで「編集可能(ピッチあり)にする」を選びます。

f:id:swingboys:20201122161340p:plain

f:id:swingboys:20201122161507p:plain

選択範囲全体についてピッチ解析される

すると、選択された範囲全体について解析されたピッチが表示されます。ただ、もともと解析できない部分に対しては、何らかのピッチが成り行きで入っているせいか、波形としては不自然に感じられます。人間がこれほど激しく細かく声の音程を変化させられるとは思えません。高速ヨーデルでしょうか。とりあえずはこのままでもスキマなく変換できることになります。

面倒でなければ、波形の平滑化という操作ができます。右クリックで、平滑化を選ぶことで、波形が多少自然なカーブになります。数値を大きくするとより滑らかになりますが、だんだん音程感に乏しいケロケロボイスに近づいていきます。

f:id:swingboys:20201122162224p:plain

デフォルトでは数値は10。これ以上大きくするとやや不自然になる。

この波形でピッチを1オクターブ上げたのが次の音声です。

フォルマントもセント指定

次にフォルマントの指定です。

f:id:swingboys:20201122162915p:plain

フォルマントも波形を直接、もしくは数値で指定可能

フォルマントについてもピッチと同様に、直接カーソルで波形をつかんで上げ下げするか、数値で指定できます。

今回は設定を「恋声」に合わせるために数値指定しました。

恋声」では、フォルマントはパーセンテージで表現されています。対するVocalShifterでは、倍の変化を1200セントとしています。

恋声」の100% = VocalShifter 0セント

恋声」の200% = VocalShifter 1200セント

に当たります。つまり、恋声の100%から200%の変化分である100%が、VocalShifterの1200セントですから、恋声の1%はVocalShifterの12セントになります。

今回の変換量である119%は、19%の変化なので、

19(%)X 12セント = 228セント

となり、この数値を指定すれば、恋声と同等の変換が得られることになります。

f:id:swingboys:20201122164137p:plain

フォルマント228セントを入力

この変換で得られた音声が次の音声になります。

 

最初に行った「恋声」による音声と比べてみると、ポップノイズ様のノイズっぽさは消えています。音声はやや乾いた感じで、好みがわかれるところとは思いますが、ノイズの点では少なからず品質が改善されていると感じられます。

恋声の音声】

やや乾いた声を自然な声に

やや乾いた感じの声はイコライザで多少改善されます。

f:id:swingboys:20201122165116p:plain

音声の周波数の中心を頂点にして山形にイコライズしてみる

今回は、VocalShifterに備わっているイコライザを使ってみました。

多少丸みのついた柔らかい音声になったように感じられます。

VocalShifterの品質の高さ

当初は、使い方が不明だったこともあり、使えないと判断していたVocalShifterですが、ちょっと強引に使うことで、従来のボイスチェンジャーに比べて改善された音声が得られることがわかりました。

どのソフトであっても、ピッチを200%にするような処理は負担が大きいのでしょう。ピッチだけ変えた音声はひどいものです。

以前アナログテープを使っていたころは、倍速再生した音を不自由なく使っていました。テープの速度を倍にすると音程も倍、つまり1オクターブ高い音声が得られるのです。しかし、品質が落ちるということはありませんでした。むしろ密度が倍になり、音質は向上しているように感じられました。

デジタル全盛ではあるものの、意外なところでアナログに追いついていないように思えます。アナログではテープを早回しするだけで簡単にできていたことが、デジタルではシステムに大きな負担をかけた上、その品質はオリジナルよりも低いように感じられます。

それでもフリーで手軽に使えるのはうれしいものです。それらフリーソフトの中でも、このVocalShifterは、ナレーションに対して上手く使えば効果的と感じました。

今のところ、今回サンプルで用いたささやき声にしか用いていませんが、他の音声でも試してみたいところです。