Tag Cloudと共起強度判定

2012.11.19

Tag Cloud、Text Cloud、Collocation Cloud...

>> Building a Better Word Cloud
>> Gradient Word Clouds
>> HTML講座(フォントと色)
>> Text Clouds: A New Form of Tag Cloud?
>> Presidential Debates with qdap-beta
>> Tag Clouds Evolve: Understanding Tag Clouds
>> US Presidential Speeches Tag Cloud
>> Wordle
>> 国会発言クラウディア

■Tag Cloud

Tag Cloud については『犬Q日記』で言及した。紹介リンクを以下に示す。

20121113 斬られ役としてのTag Cloud、etc.

■生成スクリプト

日本語版については公開していないが、英語版は以下のリンク先で公開している。他の分析ツールとの兼ね合いおよびセキュリティ上の必要から新規ファイルのアップロード等々は不可としてある。

>> 英語版試作CGI

共起強度

>> Introduction to Mutual Information and t-score from Birmingham
>> A Guide to Statistics: t-score and mutual information
>> In our corpora, Mutual Information is calculated as follows:
>> Association Measures

■ 2×2クロス集計表

w2w2以外
w1c12c1-c12c1
w1以外c2-c12N-c2-c1+c12N-c1
c2N-c2N

■ MI(Mutual Information score)

MI = log_2((c12*N)/(c1*c2))
共起数と総数の積(=実測値)を分子とし、共起する二つの語それぞれの出現数の積(=期待値)を分母とした値の対数をとる。このときの対数は底が2である。実測値と期待値はもともとは前者が「共起数/総数」、後者が「各語出現数を総数で割った値の積」であるので確率を扱っている。

一般に上記の内容を「MI」としているが、これは現在では「PMI(pointwise mutual information)」とされる。『犬Q日記』でこの件について考察したので該当日記への紹介リンクを以下に示す。

20121123 相互情報量、エントロピー、etc.
20121125 相互情報量関連の補足、式の導出、etc.
20121127 相互情報量と対数尤度比、PMIの意味、etc.

■ G(log-likelihood ratio)

G = 2*N*MI
相互情報量(MI)と対数尤度比(G)には上記の関係式が成り立つ。このときのMIはPMIではなく、また使用する対数の底はどちらも同じものでなければならない。対数尤度比については R の使用について述べた部分ですでに言及してある。紹介リンクを以下に示す。

分布と検定その4「対数尤度比」

■ t-score

t-score = (c12-((c1*c2)/N))/sqrt(c12)
もともとは「共起数/総数(=実測値)」と「各語出現数を総数で割った値の積(=期待値)」の差を「分散を総数で割った値の平方根」で割って求める。扱っているのは「平均の差」であるので、t-scoreはt分布に準拠するものと思われる。自由度 df は「c1+c2-2」で計算できるが、高出現頻度語の共起を測定する場合にこの値が小さな値となることは考え難い。よって5パーセント水準であれば概ね「2」程度が目安となる(参照)。

▼研究関連メモ目次へ戻る

Copyright(c)2005-2012 ccoe@mac.com Allrights reserved.