卒業研究のご紹介
2020年版
情報系所属学生
ベイジアンフィルタを用いたセクハラ・パワハラ発言検出方法の基本検討
渡辺 壮良穣神奈川県
情報学部情報工学科 2020年3月卒業
神奈川県立上鶴間高等学校出身
研究の目的
ハラスメント問題は世界的に注目されている問題である。その中で、最も知られているのがセクシャルハラスメントとパワーハラスメントである。これらのハラスメントが人や社会に及ぼす影響は計り知れない。
そこで、ハラスメントによる被害の中でも発言に注目し、その検出を目的とした研究を行った。迷惑メールの振り分けなどに用いられるベイジアンフィルタを利用して、セクシャルハラスメントとパワーハラスメントの検出を分類、分類精度を向上させるためにデータの収集とアルゴリズムの検討、評価実験を行った。
そこで、ハラスメントによる被害の中でも発言に注目し、その検出を目的とした研究を行った。迷惑メールの振り分けなどに用いられるベイジアンフィルタを利用して、セクシャルハラスメントとパワーハラスメントの検出を分類、分類精度を向上させるためにデータの収集とアルゴリズムの検討、評価実験を行った。
研究内容や成果等
■ 利用イメージ
利用イメージとして、大学の研究室や会社の一部署など比較的閉鎖された環境を想定している。そのような環境下では、周りの目が少ないためハラスメントが起きやすいと思われる。セクシャルハラスメントまたはパワーハラスメントにあたる発言を検出した際に、発言者に対してランプや警告音などによる視覚・聴覚的な注意喚起を目指している。
図1に利用イメージを示す。
図1に利用イメージを示す。
■ 検出のための方法・原理
本研究で用いるベイジアンフィルタとは、電子メールのスパムフィルタリングに用いられる技術である。また、ラプラススムージングという手法を用いて、登録データに無い単語も考慮できるようにした。
■ 分類辞書作成方法
今回考案した分類辞書作成方法を図 2に示す。
■ 評価実験
2つの方法を提案した。方法1は3つのカテゴリーの中の尤度が最大となるものを選択する方法、方法2は図3に示すように2段階判定である。
■ 実験結果
表1に分類方法1、2の実験結果を示す。表1からデータ数が増加することで一部を除くカテゴリの正解率が上がることを確認した。しかし、平均の正解率は70%に満たない。原因の一つとして、データ数が不足していることが考えられる。
■ 棄却を用いた分類
分類方法1に棄却の操作を加えた結果を図4に示す。この結果から、正解率は最大88%の結果が得られた。しかし、棄却率は高いもので60%を超えた。このことから、現状では各カテゴリーの十分な識別が達成できていないと思われる。
■ まとめ
本研究では、ベイジアンフィルタの技術を用いてセクハラ・パワハラ・日常会話の分類を行った。分類方法1で55〜69%、分類方法2で52〜63%、棄却を用いた分類で55〜88%の正解率が得られた。今後の課題として、アルゴリズムの更なる検討データ数の増加が必要である。
技術的には、迷惑メールの検出方法と同じ原理を適用しています。社会学的見地からのセクハラ・パワハラに関する論文は散見されるものの、人工知能を用いた検出という観点からの類似研究がほとんどありません。現段階では十分な検出精度が得られていませんが、意味の大きい研究と思われ、継続的な検討が必要なテーマと考えています。
また、3年次からは研究室に仮配属されるので、先輩と接する機会なども増えていきます。研究室に配属されてからは、同じ研究室の学生や先生の力を借りながら、最終目標である卒業研究まで頑張ってきました。自分ひとりだけの力では、研究をうまく進めることはできません。時には研究室のメンバーを頼り、頼られることで信頼関係を築くことができました。所属した研究室では国内外の学会で発表を行うメンバーや、海外から来る学生など様々な刺激を受けることができました。