Tag Cloudと共起強度判定

2012.11.19

共起強度

>> Introduction to Mutual Information and t-score from Birmingham
>> A Guide to Statistics: t-score and mutual information
>> In our corpora, Mutual Information is calculated as follows:
>> Association Measures

■ 2×2クロス集計表

w2 w2以外

w1 c12 c1-c12 c1

w1以外 c2-c12 N-c2-c1+c12 N-c1

c2 N-c2 N

■ MI（Mutual Information score）

MI = log_2((c12*N)/(c1*c2))
共起数と総数の積（＝実測値）を分子とし、共起する二つの語それぞれの出現数の積（＝期待値）を分母とした値の対数をとる。このときの対数は底が2である。実測値と期待値はもともとは前者が「共起数／総数」、後者が「各語出現数を総数で割った値の積」であるので確率を扱っている。

一般に上記の内容を「MI」としているが、これは現在では「PMI（pointwise mutual information）」とされる。『犬Q日記』でこの件について考察したので該当日記への紹介リンクを以下に示す。

◇ 20121123 相互情報量、エントロピー、etc.
◇ 20121125 相互情報量関連の補足、式の導出、etc.
◇ 20121127 相互情報量と対数尤度比、PMIの意味、etc.

■ G(log-likelihood ratio)

G = 2*N*MI
相互情報量（MI）と対数尤度比（G）には上記の関係式が成り立つ。このときのMIはPMIではなく、また使用する対数の底はどちらも同じものでなければならない。対数尤度比については R の使用について述べた部分ですでに言及してある。紹介リンクを以下に示す。

◇ 分布と検定その４「対数尤度比」

t-score = (c12-((c1*c2)/N))/sqrt(c12)
もともとは「共起数／総数（＝実測値）」と「各語出現数を総数で割った値の積（＝期待値）」の差を「分散を総数で割った値の平方根」で割って求める。扱っているのは「平均の差」であるので、t-scoreはt分布に準拠するものと思われる。自由度 df は「c1+c2-2」で計算できるが、高出現頻度語の共起を測定する場合にこの値が小さな値となることは考え難い。よって5パーセント水準であれば概ね「2」程度が目安となる（参照）。

▼研究関連メモ目次へ戻る

Tag Cloudと共起強度判定

Tag Cloud、Text Cloud、Collocation Cloud...

■Tag Cloud

■生成スクリプト

共起強度

■ 2×2クロス集計表

■ MI（Mutual Information score）

■ G(log-likelihood ratio)

■ t-score