卒業研究のご紹介
2021年版
情報系所属学生
プレゼンテーションにおけるジェスチャーに着目した英文テキストの重要箇所推定手法
尹 泰昌神奈川県
情報学部情報工学科ICTスペシャリスト特別専攻2021年3月卒業
神奈川県立相模原高等学校出身
研究の目的
プレゼンテーションでは、伝えたい重要な内容をジェスチャーや表情などの非言語コミュニケーションを用いて、聴衆が内容を理解しやすくできる。英語プレゼンテーションで使用するスピーチ文から重要箇所を抽出できれば、その箇所で非言語コミュニケーションを適切に使い、聴衆の関心を惹きつけることができる。既存の重要箇所推定手法では、語の頻度を尺度にしているが、同じ単語でも単語の前後情報によって非言語コミュニケーションをする場合があるとは限らず、英語プレゼンテーションにおける重要箇所を推定するのは困難である。そこで、私はプレゼンテーションにおけるジェスチャーに着目した英文テキストの重要箇所推定手法を提案した。プレゼンテーション中にジェスチャーをしていたという非言語情報に基づきテキストの重要度ラベルを付与したコーパスの作成手法とコーパスを学習することで重要テキスト推定モデルを構築する手法の提示を目的とした。
研究内容や成果等
■ 提案方式
本研究では、この課題を解決するために、ジェスチャーと関連した英文テキストの情報を学習することにより、英文テキストの重要箇所を推定する方式を提案する(図1)。提案方式の特徴は、プレゼンテーション中のジェスチャーに対応する英文テキストを話者が伝えたい重要箇所と捉え、その情報を付与したテキスト集合(以下、重要テキストコーパス)を学習させることで、非言語情報を持たないテキストを対象とした重要テキスト推定モデルを構築する点にある。
重要テキストコーパスの生成:プレゼンテーション動画の各画像に対して、頭、首、腕などの11個の姿勢リンク情報を抽出し、姿勢推定画像を生成する(図2)。姿勢推定画像をクラスタリングし、クラスタ内画像数Cnと総画像数Sを用いて、クラスタnにおける姿勢推定画像の重要度をTn=S/Cn(式1)またはTn=Cn/S(式2)で算出する。式1はクラスタ内画像数が少ない場合に、式2は多い場合に重要度が高くなる。重要度Tnの値に対して閾値を設定し、重要度ラベルLxを付与する。さらに姿勢推定画像に対応するスピーチ文章textを抽出し、重要度ラベルLxの付いた文章集合を重要テキストコーパスとして生成する。
重要テキスト推定モデルの生成:重要テキストコーパスを、深層学習を用いて学習し、重要テキスト推定モデルを生成する。重要テキスト推定モデルは、英文テキストを入力として、重要度ラベルを推定結果として出力する。
重要テキストコーパスの生成:プレゼンテーション動画の各画像に対して、頭、首、腕などの11個の姿勢リンク情報を抽出し、姿勢推定画像を生成する(図2)。姿勢推定画像をクラスタリングし、クラスタ内画像数Cnと総画像数Sを用いて、クラスタnにおける姿勢推定画像の重要度をTn=S/Cn(式1)またはTn=Cn/S(式2)で算出する。式1はクラスタ内画像数が少ない場合に、式2は多い場合に重要度が高くなる。重要度Tnの値に対して閾値を設定し、重要度ラベルLxを付与する。さらに姿勢推定画像に対応するスピーチ文章textを抽出し、重要度ラベルLxの付いた文章集合を重要テキストコーパスとして生成する。
重要テキスト推定モデルの生成:重要テキストコーパスを、深層学習を用いて学習し、重要テキスト推定モデルを生成する。重要テキスト推定モデルは、英文テキストを入力として、重要度ラベルを推定結果として出力する。
■ 実験
TEDプレゼンテーション動画10個を分析し、閾値の異なる4種類の重要テキストコーパスC1〜C4を作成した。さらに各コーパスを用いてLSTMにより学習した重要テキスト推定モデルの精度を比較した。重要度ラベルは普通、やや重要、重要の3種類を設定し、2つの閾値を設定した。
(C1)ノイズ画像を人の判断で除外する前処理を手動で行い、閾値(6,10)を設定する。
(C2)前処理:自動、閾値:(6,10)
(C3)前処理:手動、閾値:動画ごとに動的設定
(C4)前処理:自動、閾値:動画ごとに動的設定
生成したコーパスC4の詳細を表1に示す。
重要テキスト推定モデルの評価のためにテスト文章を80文用意し、正解率aをa=(推定できたテキスト数)/(判定不能以外の全テキスト数)x100 として算出した結果を表2に示す。
■ まとめと今後の展望
実験結果より、実際のプレゼンテーション動画から重要テキストコーパスを生成し、重要テキスト推定モデルにより英文重要箇所を推定できる見込みが得られ、提案手法の実現可能性を確認できた。今後、自動ナビゲーションなどの重要箇所の情報が必要な他のアプリケーションへの提案手法の適用および評価が期待される。
- 指導教員からのコメント データベースシステム研究室教授 鷹野 孝典
- 現在のAI技術では、AIが大量の「伝えたい内容の文章」を学習することができれば、未知の文章に対しても「伝えたい内容の文章」を推定することが期待できる。そこで本研究では、まずプレゼンテーション動画を分析対象として、話者の表情、話し方、ジェスチャーに着目することにより、話者が伝えたい内容を文章として抜き出して深層学習することができると考え、さらにつきつめていくと文章理解のできるAIが実現できるのでは、と考えを推し進めたところが尹君の発想の面白い点である。今回は話者のジェスチャーだけを分析対象としたが、今後、表情や話し方についても分析する方法を検討していきたい。
- 卒業研究学生からの一言 尹 泰昌
- 本学での教育・研究活動を振り返ったとき、一番学んだことはコミュニケーション能力の重要性がある。なぜ、コミュニケーション能力なのかというと、研究室のメンバーや大学院生の方々、研究室の教授とのコミュニケーションを通じて、研究に関わる多様なアイデアを得たからである。情報共有においても、ゼミに参加することによるコミュニケーション能力は重要である。また、大学の友達とのコミュニケーションから、わからない部分を理解できるようになったことも多々あった。コミュニケーション能力は私が社会人になってからも大事になっていくが、その重要性を大学で身をもって学ぶことができ、本学にとても感謝している。
- 情報学部情報工学科(大学サイト )
- 教員紹介ページ(大学サイト )
- 研究室ナビ(大学サイト)