2020/01/24 情報福祉マネジメント学科

教員の声:データ分析の研究 第3回 岩田一樹講師

教員の声<不定期更新>
学科の教育や活動について学科教員の視点でまとめて報告します。教員の声 第2回、岩田講師によるデータ分析の第3回です。

前回までは数に着目し分析をしました。今度は、つぶやきの内容についてみていきましょう。

文書、つまり、テキストデータの分析方法は多岐にわたるのですが、ここでは、Bug-of-Words(BoW)[10]、トピックモデル[11]、共起ネットワーク[12]を使った分析結果を紹介します。

まず、文書分析で最も基本となるBoWについて紹介します[10]。BoWは、ざっくりと、各つぶやきにおける登場単語に対して重複しないように番号を振ることで、単語をベクトル化することをいいます。BoWはたくさんのテキスト分析の基本になるもので、以下で紹介する、トピックモデルや共起ネットワークも、BoWを利用します。

単語のカウント数の結果、つまり、140万のつぶやき中で、どの単語が何回登場したのかをカウントした結果をみましょう。登場した単語の種類は約40万種類でした。ただし、検索に用いたワードは除外しました。 
図4 コミックマーケット97に出現単語のWord Cloud
図4 コミックマーケット97に出現単語のWord Cloud
そして、今回は、それをWord Cloudの可視化手法で図にしました。Word Cloudとは、文書群内において出現数の多い単語ほど大きな文字で表現するものです。ただし、表示されている場所については、特に意味はないです。最近、仙台市バスにWord Cloudで宣伝している大学があるのを見ましたが、ちょくちょく見かけるようになってきた気がします。

その結果を図4に示しました。ここでは、頻出回数が多かった上位100単語でWord Cloud表現していて、文字の大きさから「思う」、「参加」、「買う」、「新刊」、「サークル」、「コスプレ」あたりの単語が頻出度上位になっていることがわかります。そこはかとなくコミケ感がありますね。また、「売る」よりも「買う」方が大きいことから、購買者よりも購入者のつぶやきの方が多いようです。
図5 頻出度上位10トピックにおける頻出単語のWord Cloud
図5 頻出度上位10トピックにおける頻出単語のWord Cloud
次は、トピックモデルを使った分析をみてみましょう。

トピックモデルとは、こちらもざっくりと、与えられた文書群にはいくつかのトピック(その数は人が決めます)が存在し、各文書はそのトピックから確率的にdrawされた単語でできている、という感じのものです。

トピックモデルの何が良いかと言うと、例えば、英語の「play」という単語が、スポーツのトピックに属しているか、音楽のトピックに属しているかで、その意味合いの違いを取り込める点です。

今回は、約140万のつぶやきがあり、単語種類の総数は約40万種類あったので、トピック数は100としてみました。また、このモデルのポイントは、各つぶやきが100のトピックの内のいくつか(詳しく述べませんが、分析すると、1つのつぶやきは平均4のトピックを含んでいました)からできているとしている点とそのトピック内において単語間でそのdraw確率が異なる点です。

例えば、「運動」に関するトピックがあったとして、それから「陸上」という単語が登場する確率と、「音楽」に関するトピックから「陸上」が登場する確率は違う気がするということです。

それでは、取得したつぶやきについて、頻出頻度上位10トピックと、その中でのdraw確率を文字の大きさとしたWord Cloudを図5に示します。

図4のつぶやき全体のWord Cloudとはかなり様相が違っていることが見て取れます。今回は、前処理が雑なため、意味不明なものも多いですが、買い物などのそこはかとなく解釈ができそうなトピックもいくつかあります。

コミケ色が強くて解釈のしやすいところだと、「コスプレ」の頻出度の高いトピックで登場している作品が「僕のヒーローアカデミア」[12]なので、コミケ97のコスプレで注目度の高かったのはこの作品だったことを示唆しています。そして、特徴的なのが、冬コミなのにすでに「夏コミ」「準備」「用意」に関するトピックが上位にある点です。2020年の夏コミ(C98)は東京五輪の影響でゴールデンウィーク開催となっているので、そのためだと考えられますが、今回の冬コミケの特徴を反映しているトピックだと思います。
(最終回に続く)

この記事に関するお問い合わせ

教務部教務課
住所:〒981-8522 宮城県仙台市青葉区国見1?8?1
TEL:022-717-3315
FAX:022-301-1280
E-Mail:kyomu@tfu.ac.jp