トピックモデルについて読んでみた - 時代に翻弄されるエンジニアのブログ

　こんにちは，これから仕入れた知識のOUTPUT場所としてここを使わせていただきたいと思います．記事としてのクオリティはこれからですが，だんだんド抑止行きたいと思います．

　今日は岩波データサイエンスVer2を読んでみました．主に読んだのはトピックモデルです．

トピックモデルってなあに

　
トピックモデルは最近（といっても学術的にはかなり前）よく自然言語処理で用いられる技術です．簡単に言うとたくさんの単語からジャンルのようなものを自動的に作成するという技術です．これができるとニュースジャンルの自動振り分けとか，自作メモの意味による自動ラベル付けなどができます．

トピックって？

　トピックモデルは先ほどジャンルの自動作成といいました．ジャンルとはニュースで言うと，経済，科学，政治といったものです．これに対してトピックとは文章から自動的に生成されるものになります．トピックモデルはこの自動生成にたけたモデルになるのです．具体的にトピックモデルでは”野球”みたいな単語を受け取ってそれに対するトピックを一個”トピック番号1”のように割り当てることができます．しかし，”野球授業”とした場合，トピックは複数考えられます．スポーツなのか教育なのかこれに対処する方法もあります．

複数のトピック

　複数のトピックに対応するには，その単語のトピックを確率で表現します．例えば”野球授業”ならスポーツ:教育 = 0.4:0.6のような形です．このように複数トピックを確率的に割り当てる技術を潜在的ディクレ分配法（LDA）といいます．こうすることでより単語に対して分布の詳細度が高まります．この分析を文章内のすべての単語に行うことで，その文章のトピックの傾向を見ることもできます．

まとめ

　トピックモデルでは自動的に単語のトピックをまとめ上げる機能があることを話しました．これは自然言語処理の中で発展してきましたが，分析に用いるデータは何でもよく，人の性格の分類などにも使えるようです．また，モデルに性別や人の情報を埋め込むことである文章と人を関連付けたり，逆に誰かがある主張を読んで賛成する確率などを求めることもできるようです．これには，理想点トピックモデルと言う技術が関わっているようです．このように様々な事象と統計的にまとめ上げ，”意味”となるものを抽出できる物がトピックモデルとなります．