ニューラルネットワークを用いた音声信号によるリップシンク(口パク生成)技術
押見 正雄
飯島 健太
上田 賢次郎
招 待
- 受講スキル
-
・AI技術を用いたデジタル信号処理に興味のあるサウンドプログラマー。
・声の特性をより理解したいサウンドクリエーター。
- 受講者が得られるであろう知見
-
・音声信号(ボイス)の解析手法。
・発声の仕組みと音声情報との関係性。
・音声信号からの音韻情報の認識手法。
・音声信号からの口を動かすための手法。
・AI技術(ニューラルネットワーク)を用いた音声解析及びリップシンク(口パク生成)技術。
声に合わせてキャラクタの口を動かすことで、親近感を向上することができます。しかしながら、大量のセリフに対して手付けで口を動かすことは、その労力から困難です。
本セッションでは、音声から自動的に口の動きを生成する2つの手法を紹介します。
最初は、非常に軽量な「最尤エントロピー法」よってフォルマント周波数を抽出し、口の形状を推定する手法について解説します。
次にニューラルネットワークを用いて口の動きを推定する手法について説明します。音声特徴量を入力、口の形状を出力とするニューラルネットワークを作り、既存の音声データによって学習します。学習済みのニューラルネットワークを利用して、音声データから口の形状を推定します。従来の収録済みのセリフはもちろん、リアルタイム処理によってボイスチャットや生中継イベントへの活用ができます。
これらの口パクの生成の手法について、デモンストレーションを交えながら解説します。

押見 正雄
株式会社CRI・ミドルウェア
代表取締役社長

飯島 健太
株式会社CRI・ミドルウェア
組込み事業部
エンジニア

上田 賢次郎
株式会社CRI・ミドルウェア
組込事業部
エンジニア