コンピュータエンターテインメント開発に携わる人たちのための日本最大規模のカンファレンスCEDEC2021(2021年8月24日(火)~26日(木)開催)。多くの著名人による興味深い数多くのセッションが行われた本イベントの中から、8月24日に行われた“学習ベースの自然な音声合成技術のキャラクターボイスの応用と実運用”についてここでお伝えしていこう。

 このセッションでテーマとなったのは、“ゲームで求められる自然な声”。過去から現在に至るまでの音声合成技術の歴史、要件とともに、実際に実装するための手法などが解説された。

 お話いただいたのは、2004年よりデジタルゲームにおける人工知能の開発・研究に携わり、数々の著書や受賞歴もあるスクウェア・エニックスの三宅陽一郎氏と、aiboや二足歩行ロボットQRIOなどの開発ののちに音声対話技術の企画開発業務に携わっている東芝デジタルソリューションズ倉田宜典氏のおふたりだ。

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】
RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

音声合成の必要性。ゲーム性を深めるために今後は当たり前のものに!?

 まず、三宅氏から、音声合成における歴史、需要、そして音声合成におけるレベルについてお話があった。

 なお、三宅氏が務めるスクウェア・エニックス AI&アーツ アルケミーは自然言語会話を用いた対話によるエンターテインメントAIを目指した研究開発が日々行われている。ゲームのCG技術とAI技術を融合し、ゲームに限らずキャラクターの会話、世の中で広く用いられるエンターテイメントAIをテーマに研究を重ね、ゲーム産業が培ってきた技術を多方面において貢献できるよう、切磋琢磨されているとのこと。

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

 音声合成における歴史において三宅氏は、音声合成は長らくゲーム産業では使われてこなかった経緯があるが、これからのフューチャーワークとして必須の技術となってきているという。

 「音声合成はやはりゲーム産業では使われてこなかった経緯がある。ライターさんが脚本を書いて、声優さんが収録して、収録した音声を再生するということを長い期間、ゲームが立ち上がったころからやってきた。ところがAI技術の発展によって、セリフや応答がその場で作られるよう変化してきている。それに伴って、音声もその場で生成したいという要望が生まれており、音声合成に注目が集まっている。要するに、その場で作られた会話を音声で出したいと。もちろん決められた会話は録音して使えるが、ユーザーによる行動を拾ってそれに対する応答をしたいとか、新しい文章を発生させたいということで、音声合成はこれからフューチャーワークとして必須の技術となっている」(三宅氏)

 さらに多様性、変性の多い開発現場においてコストを含めた柔軟な対応が行える利点も挙げている。

 「開発はつねに変化していくことが多いため、音声収録後において、ここを変えたい、こういうことを言わせたいということが生まれ、開発後期に取り直すことは必ずしも珍しいことではありませんでした。ただ、状況によっては拡張のセリフに対応できない場合は諦めるということもあったかと思います。そういった収録に依存せずにゲーム開発の柔軟なキャラクターの発声を行いたいというところで、セリフを拡張する意味でも音声合成を導入したいという流れになってきている。

 さらに、ユーザーがもっている固有の情報、たとえば4分53秒に洞窟に潜っているといった情報をしゃべらせることによって、ユーザーは自分のことを理解してくれている、臨場感のある、単にプログラムされた会話ではなく、いまこの場にいるキャラクターを認識して話しているんだという臨場感、没入感が得られる。ゲームの奥行きを生ませるため、音声合成が必要とされてきている。ゲームデザインを広げていくためにも、この技術は基幹技術だと捉える人たちが増えている」(三宅氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

高いクオリティーが要求されるゲーム業界

 ただ一方で三宅氏は、ゲーム業界において求められるクオリティーは高く、自身で音声合成におけるレベルを5段階で表している。

 「音声合成は最近になってゲーム産業でも取り入れようという流れはあるのですが、ゲーム業界が求めているクオリティーというのは、他産業よりもおそらく高い。というのも、キャラクターが単にアナウンスとか駅のホームのインフォメーションではなく、個性を持ったリアリティーをもたないといけないという面が出てくる」(三宅氏)

  • レベル1:ロボティックな声ではない、違和感がないという点がクリアーされる必要があり、最低限のクオリティー。
  • レベル2:ファンタジーであればファンタジー、SFであればさらにその中から中世だとか近未来だとかゲーム固有の世界観がありますので、その世界になじめる。
  • レベル3:ほかのキャラクターが入ったときに流れを壊す声ではない。ほかのキャラクターは生の声優さんの声かもしれないし、AIどうしかもしれない。なかなか難易度が高くなるが、調和する声。
  • レベル4:戦闘だとかほかのキャラクターがいなくなって悲しいとかいろいろな状況がある。それぞれの状況に応じたトーンの使い分けができる。
  • レベル5:最後は感情。感情は要望の最初にくる傾向にもあるが、激高するとか、悲しむとか、いわゆる演技というものを音声合成にさせるというレベル。

 おそらくこういったものがゲーム産業が求めるものだと思っていますと三宅氏。段階に応じてNPCなのか、いっしょに冒険をするキャラクターなのかでレベルに応じて異なってくる。レベル5までくるとプレイヤーとずっといっしょにいても違和感がないというものになり、その間ではたとえば街の人、商人、宿屋のおじさんとかで使えると。役割によってキャラクターの順位が上がっていくという。

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

固定メッセージからの開放。AIによる音声合成でよりリッチな音声会話が可能に!?

 三宅氏の最後のパートでは、音声合成の制作における現状の課題と、近未来におけるあるべき将来像が語られた。そこには、ひとつのこれまでのRPGなどにおける固定メッセージの呪縛からの開放手段も含まれていた。

 「直接収録する場合はこういうふうに演技してくださいと指示できますが、音声合成の場合は一旦機械学習で音を学習させますので、人間が必ずしもカスタマイズするわけではない。問題はいかに、狙った音が作れるかというのが、ひとつノウハウが必要なところかと思っています。

 さらにできあがったものを調整したいという要望が出てくる。この音は確かに自然なんだけど、語尾を上げたい、このキャラクターは田舎ものだからもう少しイントネーションを変えたいとか。また、一度収録したものを再利用して積み重ねる形にしたい、可能であれば複数の開発にまたがって使いたい、つまり音声合成のシステム自体を資産として積み上げ、かつそれをさまざまなゲームに使っていけるよう、タイトルごとというよりは会社としてシステムを作り上げていきたいという要望もある。

 そういった要望に簡単に応えられることも含め、将来的なビジョンとしては3~4年以降として考えているが、AI側としてはNPCたちがそれぞれ言語生成AI、つまり会話生成機能をもつというのが、達成ポイントとしてある。たとえば、これまでRPGの会話でいつも同じ内容というのがもう30年近く言われてきたと思うのですが、そういった状況を変える、そのときどきの会話がユーザーの状況で行われるように考えられている。ただし、最近のRPGは音声がありますので、そこで音声合成が出てくるわけです。そのレベルに応えられるよう、ゲームの中で自然に先ほどのレベルに応じた会話が行われるよう、段階的に上げていきたい。キャラクターが自律的に考えて話すようにできると、これまでのRPGの根底が自動発生的にリッチになっていく、そういうものを目指すためにも音声合成も必要になってくるわけです。そしてこれが、求める要望なんです」(三宅氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

楽器的な意味でのシンセサイザー部分の性能はほぼ人間並に

 続いて講演は東芝デジタルソリューションズの倉田氏にバトンタッチ。現在、ゲーム制作やデジタルキャラクターを用いたコンテツでは決まったセリフではない、自由対話が求められており、より自然な声を表現するために具体的に“声の素を作る”、“韻律(いんりつ)転移を活用”、“生音声と合成音の差異の軽減”、“作成した表現の再活用”というステップが必要とのこと。これらのポイントの解説をデモ実演とともに解説され、また技術の詳細と活用した機械学習について説明が行われた。

 倉田氏によると音声合成約20年進化を重ねてきていて、ここ数年非常に良質な音声合成が各社から発表されているとのこと。一方で、その進化の過程においても構造自体はそれほど変わっておらず、シンセサイザーモジュールや言語解析モジュールの作りかたが変わっているケースが多い模様。

 「音素を分割したものを都合よくつなげる波形接続方式から、HMM (Hidden Markov Model、隠れマルコフモデル)による学習方式が開発され、そのジェネレートしていくような作り方がシンセサイザーに導入されたり、そのときに使われる音素編の辞書を機械学習で作ったりということがHMM方式で進みました。さらに2013年以降、ディープランニング方式のDNN(ディープニューラルネットワーク)方式が開発され始め、大量の音声をベースに学習をかけていって、声色を変えるために追加の音声を足していくということやっていく。その学習結果によって、非常に音質が変わってきたということがあります。

 HMM型の最近のものでもDNNのものでも、基本的には人間の声質とほぼ同等に近づいています。声の元の部分というものは、楽器的な意味でのシンセサイザー部分の性能はほぼ人間並になってきてはいるんですけど、そこからのさらなる進化が求められている段階になっています」(倉田氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

音声合成のプロセス、まずは最重要ポイントの”声の素”

 続いて具体的な制作プロセスとポイントが語られた。まず重要になるのが”声の素”を作るという点にあり、プロセスの中で最重要になるとのこと。

 「第1段階としてよく行われるのは、声のモデル、声の辞書という声の素を作ることから始まります。声の種類とか、声質とか、どういう方向で音声合成を作っていくか。じつはこの工程が、音声合成のゴールみたいなものを決まってしまうといっても過言ではないほど重要になります。どういうデータをどういう方向で収録するか、どういう音をどういう声室さんからどういう声質で採取して作っていくかという点が、最後の音質に影響を与えるのです。

 合わせて、スタジオに入ってできるだけきれない音源を確保するというのは非常に重要です。声優さんとかアナウンサーとかナレーター、声を出すことに慣れた方、トレーニングを積んだ方が発声されると、結果声辞書や音声モデルは良質なものになる傾向はあります。素人がふわっとしゃべっても、きれいには入らないということですね。

 3つ目の工程の機械学習も各社それぞれブラックボックス的な手法があって、工夫があるようです。それによって最終的な結果が変わる部分もありますし、どういうデータをどういうふうに学習させていくとうまくコントロールできるかというそういうのも各社いろいろあるようです。その後でき上がってきた声も各社調整を行って仕上げていくということを行っています。これが声の辞書、音声モデルを作る流れになります。

 これによってひとつの声ができます。ただ、声優さんはよくいろんな声質をもたれていて、七色の声を出す声優さんはたくさんおられますが、その七色の声を1回の収録で作ることはできないんです。声の方向性の検討時点で方向性を検討し、結果を依頼してしゃべってもらうということが非常に重要になります。でなければ、魂を込めて全力を発揮して収録すると、結果バラエティーに富んでしまって機械学習がうまく収まらないということもあります。ですのでいろんな声を作る場合はこの工程を何回も繰り返さないといけない、ここが最終的にコストにつながる点だったりもします」(倉田氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】
RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

まるでオウム? 抑揚の表現における新手法、”韻律射影(いんりつしゃえい)”

 音声合成では、声色、抑揚の方向性に合わせて統一した音声収録がまず重要とのことで、収録した音声はたとえ同じフレーズでも生の音声は使わず、合成した音声を使うという。実際のサンプル再生を交えて倉田氏は語る。

 「生の音声と合成した音声とでは、キーはちょっと違うかもしれませんが、声質的にはかなり近いものになっています。だいぶ整ってきている。また、何も調整を行っていない段階のものを聴き比べると、雰囲気が違うなと感じられるかと思います。ここからアクセントを変えたい、間を置きたい、強くしゃべりたいという調整を加える手段として、SSMLタグとしてあります。またSSMLより可読性を上げた表音文字列ものもあり、アクセントは上のカンマだとか、間を開けるのはこの記号だという定義して提供していたりします。ポイントは、オリジナル台本では調整されていませんので、表音文字列でアクセントを付けていると思っていただいてよいかもしれません」(倉田氏)

 ここにまだマニュアルがあり、事実この調整では作業時間にいくらでも時間を要してしまうという欠点もあるという。そこで新たな手法として登場したのが”韻律射影(いんりつしゃえい)”とのこと。

 「表音文字列でできることにも限界があるのと、これで調整すると時間があっという間に過ぎます。そこで新たな手法として人がしゃべった表現を真似させるという手法が最近出てきました。韻律射影(いんりつしゃえい)・韻律転移(いんりつてんい)と我々いっているんですけども、表現をキャプチャーして分析し、似たようにしゃべってくれるといった機能が登場しつつあります。

 これまでの自動学習は、ベストな結果で音声発生するというもの。これに対して違う読みを行いたいというときの新たな手法となります。これによりクリエイターがこういうものを作りたいというときの入り口が増えるのと、作業時間を短くすることができるというメリットが出てきます」(倉田氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】
RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】

AI化により流れが加速し、手作業から効率化、高品質に

 最後に倉田氏は、音声合成についての将来の展望、期待を語ってくれた。

 「音声合成では別のキャラクターに同様の表現をさせる再活用ができたりします。たとえばAというキャラクターのために作ったものだけど、のちにBというキャラクターに同じイントネーションでしゃべらせることができます。

 ここまでお話したことは、今ある技術を使って行うことで、まだまだ手作業の範疇が大きくいわば前半戦といえます。ここからAIでやっているなかで、自浄で選定されたり、過去のストックがうまく学習に組み込まれて音声合成自体が能動的に表現を変えたりするというところにたどり着けるのが、AI化のときの最重要なゴールだと思っています。現時点ではその今入り口に立っているところなんですが、クリエイター、サウンドクリエイターさんの力を借りながらどんどんノウハウをためていって、こう使いこなすといいものが作れるというのを実現できたらいいなと思っています。

 ぜひみなさんのアイデアと情熱で新しい音声合成技術を生かして、ゲームユーザーさんが驚く体験を作っていただけるとうれしいです」(倉田氏)

RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】
RPG固定会話からの脱出。プレイヤーごとの自動生成音声で自然な会話が可能な未来が!?【CEDEC2021】
CEDEC2021関連記事はこちら