Text Profiling Tool Box

2012.02.02

公開サンプル版の特徴

■ 制限

>> Text Profiling Tool Box サンプル版

Text Profiling Tool Box (以下 tptb)はテキストデータを Perl と R を使って分析し、対象テクストの内容を推察する手掛かりを提示する CGI スクリプトである。レンタルサーバで公開するサンプル版には次のような制限がある。

(1) 新たなファイルをアップロードできない
(2) 分析対象言語は英語のみ
(3) Rを使った処理結果を自動で取得できない
(4) MDS処理する語彙数は16個に制限される

最初の制限は保守に関するものである。二つ目は日本語形態素解析器が使用できないことに因る。三番目はレンタルサーバでは R が使用できないため、生成したファイルをダウンロードして各自の環境で実行してもらう仕様としたからである。

最後の制限については以下のような事情がある。

まず通常のWebサーバは一定時間(大抵は5分間)データが返ってこないとタイムアウトしてしまう。このため tptb で300kB程度を越えるテキストデータを処理するとタイムアウトを頻発してスクリプトが機能しなくなるおそれがある。ローカル環境であれば httpd.conf の必要な箇所を書き換えれば済む事だがレンタルサーバではそれができない。

また正確さを期すのであれば16個制限は各語彙の出現数を確認して増減調整すべきだが「16個」という閾値にはそもそも特に根拠もないこともあり、こだわらないこととした。16という数字は単に用意したどのデータでもタイムアウトを起こさない値で、最小のデータでは hfv_items が16個だったことによる。

その他上記制限の中には書かなかったが、分析の際の自由度(どのような設定を使うか)及びKWIC 等の別種ツールの利用や分析対象テキストコーパスの種類と規模等々全般にわたって公開版では制限してある。

■ R ファイルの内容

tptb は対象データを選択して送信ボタンを押すと数十秒から数分(ただし5分以内)で分析結果を返してくる。これらはWebページとして表示される内容とファイルへのリンクの形で提示するものとの二種類にわかれる。後者のうち R ファイルは以下の三つである。

(1) .R file for the normal distribution
(2) .R file for the metric multidimensional scaling
(3) .R file for the cluster analysis

最初のものは平均値と標準偏差を使って正規分布曲線を描くためのものである。これは全く参考程度のもので重要ではない。語彙分布がまともな正規分布にはならないという広く知られた説の確認に使える程度である。

二つめは Dissimilarity Table for MDS にリンクしたファイル(dissim.data)の内容を使って計量多次元尺度構成法を行なう。hfv_items の関係を二次元図に表し、計算した二次元座標をファイルとして出力する。

最後のものは MDS によって二次元化(次元縮約)されたデータをもとに階層クラスター分析を行なう。分析結果として樹形図(デンドログラム)を表示し、hfv_items を5つのクラスターに分類する。分類は各 hfv_items にクラスター番号を振る形でなされるが、サンプル版では表示しない。

■ Rファイルの実行手順

Rファイルの(GUI版 R の)基本的な実行手順は以下の通り。

(1) dissim.data 及びRファイルをダウンロードする
(2) R を起動する
(3) メニューの「その他→作業ディレクトリの変更」でダウンロードしたファイルがあるフォルダを指定する
(4) メニューの「ファイル→ソースを読み込む...」で実行したいRファイルを選択する

tptb ではMDS用Rファイルを実行したあとでなければクラスター分析に必要なファイルが揃わないので、必ずMDS→クラスター分析の順で実行しなければならない。

その他

■ 語彙の選別と距離の計算

>> Text Profiling Tool Box

hfv_items の定義と選別法、こうした語彙項目間距離の算出法など tptb の詳細については上記リンク先を参照のこと(要認証)。

▼研究関連メモ目次へ戻る

Copyright(c)2005-2012 ccoe@mac.com Allrights reserved.