卒業研究のご紹介
2020年版
情報系所属学生
データ拡張による手話動作の識別性能の向上に関する実験的検討
川口 開都福島県
情報学部情報工学科 2020年3月卒業
福島県立遠野高等学校出身
研究の目的
聴覚障碍者同士のコミュニケーションには手話が一般的である。しかし、聴覚障碍者と健聴者は、筆談器や文字入力などのコミュニケーション支援機器が利用されているのが現状である。リアルタイムでの手話翻訳が可能となれば、聴覚障碍者と健聴者のコミュニケーションを円滑にすることができる。私たちは、スマートフォンに搭載されている光学カメラを用いた手話翻訳システムの実現に取り組んでいる。
深層学習を利用することの課題として、学習モデル作成に膨大な学習用データを要することがある。しかし、これを満たす多人数の正しい手話動画の収集は困難である。手話動画では、手話者の体格や微妙な手話動作の位置や大きさの違いに加え、カメラと手話者との相対的な位置や向きのズレが生じる。これらの変動を考慮して、人為的にデータを作成し、識別性能の向上の実験的検討を行っている。
深層学習を利用することの課題として、学習モデル作成に膨大な学習用データを要することがある。しかし、これを満たす多人数の正しい手話動画の収集は困難である。手話動画では、手話者の体格や微妙な手話動作の位置や大きさの違いに加え、カメラと手話者との相対的な位置や向きのズレが生じる。これらの変動を考慮して、人為的にデータを作成し、識別性能の向上の実験的検討を行っている。
研究内容や成果等
■ 研究内容
当研究室ではカラー手袋を装着して取得した光学カメラ画像による手話翻訳システムの実現に取り組んでいる。ここでは、データ拡張による識別性能向上を目的として、事前学習済みネットワークVGG16を用いて検討した結果を示す。
■ 学習モデル・データ拡張
本検討での学習モデル作成・識別方法を図1に示す。学習モデルを作成する際、LSTMは中間ユニット数100、最大EPOCH600、最適化手法Adamを設定した。学習はTrainingLossを1 iteration毎に取得し、直近の6個のTrainingLossの差(絶対値)の平均が1e-3以下で 終了とした。
手話者の体格や微妙な手話動作の位置や大きさの違いに加え、カメラと手話者との相対的な位置や向きのずれが生じる。これらの手話動作の変動を含めた十分な数のデータが不足しているため、以下の拡張を行った。
・体格差や手の移動範囲の相違を考慮した拡大/縮小
・体やカメラの傾きのずれを想定した回転
・カメラと手話者との相対的な位置のずれによる水平/垂直方向の移動
変更量は、拡大/縮小1%、3%、5%、回転1°、2°、3°、水平移動4cm、6cm、8cm、垂直移動4cm、8cm、12cmとした。
学習データは手話者3人から各単語の動作を20 個、合計60個、評価データは異なる手話者3人の動作を10 個、合計30個で構成した。拡張データに対して作成し、合計120個とした。
手話者の体格や微妙な手話動作の位置や大きさの違いに加え、カメラと手話者との相対的な位置や向きのずれが生じる。これらの手話動作の変動を含めた十分な数のデータが不足しているため、以下の拡張を行った。
・体格差や手の移動範囲の相違を考慮した拡大/縮小
・体やカメラの傾きのずれを想定した回転
・カメラと手話者との相対的な位置のずれによる水平/垂直方向の移動
変更量は、拡大/縮小1%、3%、5%、回転1°、2°、3°、水平移動4cm、6cm、8cm、垂直移動4cm、8cm、12cmとした。
学習データは手話者3人から各単語の動作を20 個、合計60個、評価データは異なる手話者3人の動作を10 個、合計30個で構成した。拡張データに対して作成し、合計120個とした。
■ データ拡張による識別結果
3回の学習試行を行ったときの、データ拡張前、各拡張方法による識別結果を図2に示す。識別性能は各拡張方法によって差があるものの、向上していることを確認した。一例として、データ拡張前後の混合行列(垂直移動4cm)を図3に示す。データ拡張を行うことで識別性能が62%から71%に向上することを確認した。
■ まとめ
限られた数の学習データという制約の中で、手話動作の変動に対応した高精度な識別を行うため、現実の変動要素を考慮して手話データを拡張した。拡張したデータを追加した実験により、識別性能を高められることを確認した。今後は、拡張手法を組み合わせた識別性能向上の検討が課題となる。
深層学習の適用における大きな課題の一つに、大量の学習データが必要であることが挙げられます。当研究室では、静止画の識別で使用されているデータ拡張の技術を手話動画に対して拡張し、手話を行う人の体格差や動作の微妙な相違を人工的に生成することによって学習データ数を確保し、識別精度を向上させる手法の開発に取り組んでいます。本技術は手話だけではなく、様々な動きに対する識別技術の一つとして展開が可能になるものです。