INDEX 2014

1119 1026 0926 0824 0512

November 2014

November 19 Wednesday 2014

1956年の論文 その1

前回の続きです。これで五回目くらい。句構造文法とオートマトンについてお浚い(?)している途中でしたが、一旦ここらで原点回帰してみます。つまりこうしたものの起源であるらしい「チョムスキーの1956年の論文」に一体何が書かれていたのかをまずは確認してみようということです。

とはいってもいきなりではナンなので、ちょっとサグリを入れておきましょう。この論文の生成文法派内での位置づけといいますか。

ええと、この人たちは「自然科学」を自称していて批判者のことはトンデモ呼ばわりします。ところがそんなに自信満々に振舞ってよい根拠って案外薄弱なんですよ。

ただ、「理工系」の研究者が生成文法に対して持っている不満・軽侮の念が、もし生成文法の文献が自分たちのよく知っている「言語」(典型的には数学言語)で書かれていないことに由来している部分があるとしたら、それには異論がある。(p.16)

引用は前にも言及した『自然科学としての言語学』(福井直樹、2001)から。どうやら生成文法派の研究内容は「数学言語」(←?)で記述されていないようです。なにやらそれっぽい雰囲気の術語は今でもたくさん使っているので騙されそうになるんですけろ。

もちろん数学は、それ自体が持つ学問としての価値や美しさは言うに及ばず、科学にとっても非常に強力な武器である。生成文法理論がその誕生初期において広く科学者の興味をひき共感を得たのも、「言語能力」に関する理論を二十世紀前半に開発された帰納関数論等の数学的道具立てを用いて明示的に示してみせたのが大きな要因となっていよう。(p.17)

「言語能力」を「帰納関数論等の数学的道具立てを用いて明示的に示してみせた」ことが生成文法理論に科学者の興味を引き付けたと述べています。「帰納関数論」はrecursion theoryのことで「再帰関数論」とも訳され「計算可能性理論(computability theory)」というのとも同じものなのだとか。

ちな「数理論理学(mathematical logic)」は数学の一部で、帰納関数論はその数理論理学の一部である、という関係がある(=三段論法からいって帰納関数論は数学の一部である)ようです。いまここで深入りするとアレなのでとりま置いときます(←!)。

チョムスキーの1956年の論文を含むいくつかの(最初期の)研究成果によって生成文法派は「自然科学」を自称するようになったようなのですが、現在の研究内容はこの延長上にはなく、その証拠に、たとえば中期に該当するGB理論時代に書かれた『チョムスキー理論辞典』(1992)の見出しには「数学言語」的な内容は(私が確認した限りでは)全くありませんでした。

これは構造主義が流行する初期には(若干怪しいところもあったけど)群論を使って、つまり「数学言語」で記述されていたのに、後々グダグダになってしまったのと似ているかもしれません。最初にちょっとだけ使ってみせたものの印象で科学を詐称する感じといいますか。

しかし、「言語機能」の解明を目指す経験科学としての言語学(生成文法理論)にとっては、「数学化」そのものは本質的なことではなく、ある種の言語モデル(マルコフ過程に基づく有限状態文法など)が人間言語のモデルとしては決定的に不備であるということを示すという所期の目的を達成したあとは、生成文法理論の中心的興味はこの分野から離れ、「言語機能」の諸特徴を経験的・実証的に発見するという本来の目標に向けて、より多くの努力が払われるようになった。(pp.17-18)

「ある種の言語モデル」が「人間言語のモデルとしては決定的に不備である」ことを示したあとは「数学化」(=言語機能を数学言語で記述すること?)に興味をなくした的なことが書いてあります。あらら。

で、この部分がチョムスキーの1956年の論文にあたります。「マルコフ過程に基づく有限状態文法」が「人間言語のモデル」つまり自然言語のモデルとして「決定的に不備である」ことを明らかにしたもの、ということです。

うーん...なんか妙なことを言っているように見えます。「有限状態文法」って「有限状態オートマトン」と「正則文法」が混じったような表現で「?」なんですけど、チョムスキーの論文では確かにfinite-state grammarという表現も使われていました。「マルコフ過程に基づく有限状態文法」全体にあたるものはfinite-state Markov processです。「有限状態マルコフ過程」ですね、一般的な訳語は。たぶんこれは「確率有限オートマトン(probabilistic finite automaton)」とも同じものです。

具体的な(「マルコフ過程」って何よ!等々を含めた)アレコレについてはこのあと論文の内容そのものを扱うときに言及しますけど、そもそも「有限状態オートマトン」=「正則文法」が自然言語の(階層的な)統語構造を記述し得ない、のは割りと当たり前(誰でも数秒から数分で気づく感じ?)というか、それはそうなんじゃないっすか的な事柄に過ぎないんじゃないかと。だから確率化されたバージョンでもやっぱりそれはそうなんじゃないかと。

でもそのことは確率モデルが自然言語のモデルとして「決定的に不備」なことを意味しないだろうし、また「階層的統語構造を記述できない」イコール「自然言語を記述できない」と結論してしまってよいことにもならないんじゃないの?と言いたい。

数学化の放棄

1956年の論文から始まる初期の研究では「言語能力」を数学言語で記述する場合にどのような方法が可能であるか、がテーマでした。確かにこれなら(確率モデルの否定に関しては論理の飛躍が疑わしいですが:汗)自然科学だといえますし、これこそ生成文法派が他の伝統的言語研究に対して画期的な点だったはずです。

しかしこの取り組みは(対外イメージ的には案外バレていないものの:笑?)数十年間に渡ってすっかり放棄されています。なぜそんなことになったのでしょうか。

生成文法理論と、代数学を中心とする数学の蜜月が長く続かなかった理由としては、形式言語理論が本質的に、「言語」を「記号列の集合」として捉える考え方に基づいており(これは非常に大雑把で不正確な言い方であることをお断りしておきたい)、専門用語で言う「弱生成能力」(weak generative capacity)の考察をもとにして「否定的」な結果を出すことには成功したが、「言語機能」の本来の特性である「写像システム」(mapping system)あるいは「計算システム」(computational system)を研究するための「強生成能力」(strong generative capacity)に関する数学的理論が存在しなかった(あるいは言語学者には利用可能でなかった)ことが大きいと思う。ついでながら、この点に関して、一九七〇年代にすでに「強生成能力」に関する数学的理論を構築しようとしていた黒田成幸の研究は現在の観点から再評価されてしかるべきであろう。(p.18)

長々言及してきたのでこれで福井(2001)からの引用は最後にしときます。「数学化」を放棄した理由を「強生成能力」に関する理論が存在しなかったからだ、と言っています。専門用語だそうですが幸い『チョムスキー理論辞典』にgenerative capacityの項目はありました。傍線は引用者が付けています。

ある文法がいかなる文を生成するかを、その文法の弱(weak)生成能力と呼び、いかなる構造記述の集合を生成するかを強(strong)生成能力と呼ぶ。(略)例えば、文法を、帰納的集合(recursive set)や帰納的可算集合(recursively enumerable set)のみを生成するように制限することが、優先的意義を持つとする議論もある。そのような議論の背後には、言語理論の第一義的研究対象は具体的言語現象の集合であり、したがって、その集合に基づいて規定される生成能力が極めて重要な問題であるという考え方がある。
しかし、言語理論の第一義的研究対象は、言語能力のモデルとしての文法自体であり、具体的言語現象は文法の発動に付随して生ずる派生的概念であると考える理論では、文法の生成能力の問題はもはや派生的な問題である。

一部抜粋してみましたが何をいっているのかよくわかりません(笑?)。

とりあえず「弱生成能力」とは(最初の傍線部にあるように)「文法」が「文(の集合?)」を生成する能力のことで(二番目の傍線部にあるように)「構造記述の集合」を生成する能力が「強生成能力」であるらしいことはわかりました。

引用では省いたのですが、この項目の解説冒頭に「文法は、文と文の構造記述(structural description)を明示的に与える規則の体系」であると書いてありました。「文と文の構造記述」というのは「(文と文)の構造記述」ではなく「(文)と(文の構造記述)」のことだと(生成文法派は「文と文」つまりテクストの構造は扱わないという常識から)理解できます。

また、三番目の傍線部と四番目を比べますと、どうやら生成文法派は四番目の傍線部にあるような理論らしいので「生成能力」は「派生的な問題である」(=割とどうでもいい?)という立場のようです。

「具体的言語現象の集合」と合致した「文の集合(=言語)」を生み出すように生成能力を制限すること(たとえば英語なら英語、日本語なら日本語で実際に使用されるような自然な文だけを生成するように文法の生成能力を調整すること?)は重要な案件ではないといいたいみたい。なんでそういえるのかというと、生成文法派は「具体的言語現象」なんて無視してかわまんと考えているからなのだとか。(ボヤキ:生成文法派の人たちが句構造文法まわりのことについて語っている文章は読んでて不安になるというか、なんかすっきりしないんですけど、オイラの不勉強だけが原因とも言い難いような...ゴホゴホ)

ですから福井(2001)が理由としてあげた、強生成能力を扱えるかどうか、という点は(生成能力そのものがどうでもいい以上)そもそも生成文法派が関心を持つ問題ではなかったということです。「数学化」を放棄したのは彼らが本質的には全く「科学」を志向せず、単にそれに擬態したcargo cult scienceを育て上げていることに由来するのだと思います。具体的言語現象の集合には関心がないといいつつ「経験科学」を名乗るとか、ほんとにわけわからん。

変形のための構造記述

それと「強生成能力」が文字通り「文の構造記述」を生成する能力のことだとするなら、文脈自由文法でも「文」に行きつくまでの生成過程がそのまま構造の記述(=構文木)になっているのですから、十分扱えているように思うのですけろ、なんでダメなんですかね。

「構造記述(SD)」は『チョムスキー理論辞典』に項目がないのでこれまたいつもの『A Dictionary of Linguistics and Phonetics』(Crystal,D.:1991)で調べときます。

A term used in (especially classical) TRANSFORMATIONAL GRAMMAR to refer to an analysis of a TERMINAL STRING in terms of a labelled BRACKETING. In transformational analysis, the SD identifies the input to a transformational RULE: it specifies which PHRASE-MARKERS are to be affected by the rule, i.e. which will 'satisfy' or 'meet' the CONDITIONS of rule. The terms 'structural analysis' and 'structure index' are also used.

比較的短い解説だったのでほぼ全文を引用しています。「変形文法(transformational grammar)」という最近では全く聞かない術語がでてきて怯みます(笑?)。初期の生成文法は「変形生成文法」とか呼ばれていて、生成規則で生成したもの(=深層?)を変形規則で変形させて云々、つまり表面的なというか表層的なバリエーションは生成規則とは別の規則体系で処理できる的な考え方があったようなのです。そのあたりのアレコレに関しては以下のものなどが参考になるかもしれません。

>> 「自然言語の意味論」(郡司隆男,1984)

自然言語のための理論としての生成文法は、その初期から独特の構造を持ってきている。すなわち、変形という、プログラミング言語のための文法にはないものを使用していることである。そのために変形生成文法、あるいは変形文法と呼ばれている。(略)初期の変形文法では表層の、通常読んだり、話したりするままの言葉の構造(これを表層構造といっている)に加えて、意味の構造により近いものとして、より深い構造(これを深層構造という)を設定した。表層構造と深層構造とは変形規則で結びつけられる。(略)ここで基底規則によって生成される構造は句構造とよばれる木構造で、このために基底規則は句構造規則ともよばれる。変形規則は句構造から別の句構造への写像と考えることができる。このように変形文法は句構造規則と変形規則との二本立ての構成をとっていることに大きな特徴がある。

いまだと「変形規則」的なものは全部「move α」と呼んで処理しているらしいです(最新版は「move F」だそうですが採択率は高くないらしいとか)。あと「深層構造/表層構造」は途中「D構造/S構造」になって、結局現在の理論では区別して扱わないのかな?(こういう事実があっても「コロコロ主張が変わるとかいうのはシロウト!不勉強!何にも変わってない!!」っていうんだよな、彼等は...)

それはさておきCrystal(1991)に戻りますと、なんだかそういう(=変形文法の)考え方のもと「labelled bracketing」の観点から「terminal string」を分析するときの術語だって書いてます。terminal stringは「終端記号からなる記号列」くらいの意味ですから、文脈自由文法でいう「文」が該当します。bracketingは「ブラケット表示」つまりMy wife ate her cakes.みたいな文を(((my)(wife))((ate)((her)(cakes))))という感じで扱うことだと思われます。階層構造をカッコで示す的な。

ただのブラケット表示ではなくlabelledだそうですのでこれにラベルをつけます。(((my)Det(wife)N)NP((ate)V((her)Det(cakes)N)NP)VP)Sみたいな感じでしょうか(中カッコを使ってラベルは右下が正式でしょうし、時制や単複をどう扱うかとかとか色々ですが深く考えずに示しました:汗)。要するに構文木ですね、やっぱし。

それでよくわからんのですがSDは変形規則に対する入力をidentifyするものらしいです。コロンのあとに書いてあるのが変形規則の説明だと思いますけろ、phrase-marker(PM)をどうこうするものっぽい。次々と未知の用語が出てきて際限ないのですが、PMはたぶん非終端記号のうち変形規則で動かす位置のひとまとまりのラベルのことじゃないかと。

my wife ate her cakesという先の例でいうと(my wife)NPのNP、(ate)VのV、(her cakes)NPのNPがそんな感じかもしれません。NP V NPに番号をつけて 1 2 3とすると、これを入力して変形規則で3 2 1に順番が変わってVの中身(?)がwere eatenに、1の前にbyがついてとか色々あって(?)her cakes were eaten by my wifeに受動変形できる、と(ただ、この場合herの指し示す内容に違いが生じてしまう気が...)。受動変形以外にも同じ入力からの別の変形があって様々な派生が云々。

長々歯切れの悪い考察(?)をしてみましたが、ともかくSDとは、変形による派生を踏まえた上での構文木である、というところが弱生成バージョンと違うところなんでしょう。

ところで話はずずっと戻りまして、福井(2001)からの最後の引用で挙げられていた強生成能力に関する数学理論についての「黒田成幸の研究」なんですけど、具体的には以下の論文です。

>> Kuroda, S.-Y.:1976, A topological study of phrase-structure languages

要約の冒頭に「It is proposed that structural equivalence of phrase-structure languages be defined by means of introducing, for each such language, a class of topological structures on the language.」とあるので、たぶん言語の「構造同値」がどーのこーのいうような内容ではないか、と。またtopological structuresとも言ってます(取っ手がついたコーヒーカップもドーナツも同じ図形とするアレのことですよね?)ので「変形」を数学的に扱ったもののような気がします(←いーかげんすぎるやろ!読めや!←うるへー!いろんな意味でキツイんだよ!)。(弁解:大変興味深くはあるのですが私の英語力では意味が特定できない文が続出するタイプの書き手とお見受けしましたので、アレです、すんまそん:滝汗)

「構造同値」は多次元尺度構成法と非常に縁のある概念でもあるので、もしも生成文法派が数学化を放棄しないでscientific integrityを持って研究に取り組んでいれば今とは別の未来もあったのかな、と思わなくも無かったり。まあ何がなんでも「文」という単位に固執するとか、言語共同体が言語には不可欠であるとは絶対認めないとか、そういう部分が生成文法派のアイデンティティになってるっぽいから、どうあっても駄目かもしれませんけろ。

遠い道のり

はっきり言って生成文法派の狂気というか底なし沼に阻まれて中々「1956年の論文」本体に取り掛かれません。結局今回はたどり着けませんでした(涙)。ちなみにその論文というのはコレ↓です。

>> Chomsky, N.:1956, Three models for the description of language

チョムスキーはこの前年に博士号をとっていたはず。翌1957年には『統辞構造論』が出ています。なんと今年になってから岩波文庫版の新訳が!

とりまそんな感じで。

October 2014

October 26 Sunday 2014

文法と文と言語

前々回前回の続きです。思ってた通りではあるのですが生成文法関連の話をするとどんどん泥沼に沈んでいって非生産的かつ非効率になっていきます。初期の話に限定してさえメンドクサイ(←!)。手間ばっかかかるのに見返りなくてウンザリ(←!!)だよ、うわあああああああああああん。

さて、話を戻します。

「言語が再帰的である」というのは、ある文(=記号列)がその言語に属するかどうかを判定する「プログラム」が書ける、ということなのだとされていました(どうも一般的に定着している邦訳では、言語が「recursiveである」というのは「帰納的である」とするようです。同様に「recursively enumerable」も「帰納的に可算」ということになるらしい。「演繹的(deductive)」の対語としての「帰納的(inductive)」と紛らわしいですよね...)

表示言語を判定して提案してくるような機能はWebブラウザなんかにもあるので「そんなプログラム書くなんて超簡単じゃね?」と思うかもしれませんが、そういうのとはちょっと話が違います。けっこう当てられる、というレベルではなくパーペキに判定できないとダメなんでしょう。

句構造文法は「書き換え規則」「終端記号」「非終端記号」の各集合および「開始記号」のセットによって構成されていました。非終端記号の一種である開始記号からスタートして、書き換え規則(句構造規則、生成規則、etc...)に従って記号列を生成(導出、etc...)しつつ、最後には終端記号のみで形成されるなんらかの記号列を作り出すという能力がこの文法にはあります(というか、全部が終端記号になったらそこより先は書き換えできないので止まります)

このとき「言語」といっているのは「文法」が生成する可能性のあるすべての記号列の集合ということなんですが、そこはそれ、いつものように紛らわしいアレコレがあって、句構造文法が正則文法なのか文脈自由文法なのか、などなどで色々違いがあるようです。

たとえば文脈自由文法の場合には、終端記号のみで形成された記号列を「文(sentence)」と呼び、その途中経過(?)的なやつは「文形式(sentential form)」と呼んで両者を区別するようです。このタイプの文法でいう「言語」は特殊な「文形式」である「文」のみからなる集合のことであると。参照:『自然言語処理の基礎』(吉村賢治,2000)および『確率的言語モデル』(北研ニ,1999)などなど。

ちなみに生成文法派と自然言語処理はどちらもチョムスキーの1956年の論文を起源としているので(←?)文脈自由文法の「文」と「言語」の定義は生成文法派でも同様です。

生成文法では、(個別)言語(a particular language)とは、適格な文の集合(a set of well-formed sentences)と定義されている。例えば、日本語とは、「日本語の文として適格な文の集合」のことである。日本語の文として適格な文の数には限りがないから、この集合は無限集合である。そして、この無限集合を規定する(=生成する(generate))規則の集合が、その言語の生成文法である。(p.266)

上記引用は『チョムスキー理論辞典』(1992)における「Language(言語)」解説の一部から(てか「規則の集合」だと「書き換え規則」の集合に限定したみたいにとれてしまいませんか。記号の集合なども含んだ全体が「文法」のはずなんですが)。句構造文法のアレコレを実際の自然言語、たとえば英語などに当てはめると(名詞句とか動詞句とかの句も含むけど)概ね品詞っぽいのにあたるのが非終端記号です。終端記号は英語ならtheとかroseとかいう語そのもの。とはいえ品詞が有限集合なのは確かなんでしょうが、語の集合はそもそも有限なんだろうか...と思わなくもなかったりします(終端記号が文字の場合さえ、英語なら有限集合でしょうが日本語でもそういえるのかどうかムニャムニャ...)

判定プログラム

句構造文法で生成される「文」の集合が「言語」であるとき、この「言語」は「recursively enumerable」だろう(=必要な材料は有限集合として与えられているので生成プログラムが書けそう)と考えられるのですが、「recursive」関連、つまり与えられた記号列が「文」として適格かどうか(=判定プログラム書けるかな?)の方はどうでしょうか。

こうした「プログラム」にあたる概念装置(?)っぽいのを「オートマトン(automaton)」と呼んでいるようです(ちな複数形はautomata)。「言語」をコンパクトな形で記述したものが「文法」や「オートマトン」という考え方なのでしょう。「言語」そのものは無限の「文」集合であるため全部を記述するのは原理的に不可能ですから、それに比べれば「文法」や「オートマトン」はマシっぽく(というか、少しは見込みがあるように:笑?)見えます。

しかし、これらの文法で実用レベルの規則を書くと、規則数はゆうに数百〜数千に及ぶだけでなく、文脈に依存する規則はかけないことになる。
上記の方法は、英語を中心とする言語を対象にして考えられてきた方法と言えるが、言語は慣習であるから、文脈自由文法のようなきれいな構造が成り立たないだけでなく、句構造で説明できない文構造もある。特に、語順の自由度が高く、省略の多い日本語を句構造文法で解析するのは困難である。このような日本語を解析する方法としては古くから、係り受け(dependency)(もしくは依存文法dependency grammar)の方法がある。これは、文節間の依存関係を決定する方法であるため、語順や要素の省略に強い。(pp.115-116)

言語情報処理』(1998)から。引用冒頭あたりの「これらの文法」は文脈自由文法および「文」が適格か解析する具体的手法(CYK法、LR法など)のことを指しています。CYK法を使うには「文法」が文脈自由文法であるだけでは十分でなく書き換え規則が「チョムスキー標準形(Chomsky normal form)」でなければなりません(ひとつの非終端記号から二つの非終端記号が生成される、というのと非終端記号ひとつが終端記号ひとつを生成する、という二種類のタイプだけに規則を制限したものですが、「ひとつの非終端記号から「非終端記号と終端記号の和集合のクリーネ閉包に属する要素」が生成される」という制限だけを持つ文脈自由文法の規則からこれに変換することも原理的に可能なので、手間とか効率を度外視するなら文脈自由文法であればCYK法は利用できるみたいです。ちな「クリーネ閉包」は要素を組み合わせたパターンの無限集合的なものらしいです。正確な説明になってるかわかりませんが:笑?)。与えられた「文」が構文解析(どの規則をどういう順で使って文が生成されてきたか(=導出過程)を明示)できるかどうか、ということを使って適格を判定できます。記号列がきちんと構文解析できれば適格ということですね(与えられた記号列から構文木を遡っていって開始記号Sまで遡れるパターンが存在すればOKみたいな感じ?)

あとLR法を用いて構文解析を行う「LRパーサ」(ちな「パーサ」はparserで構文解析を行うアレのことやね)は「プッシュダウンオートマトン(push down automaton)」という文脈自由文法に対応したオートマトンでし。で、具体的な話をする前に疲労困憊したので、このあたりで。

あ、てか、唐突に上で引用した内容に話を戻しますが(英語や日本語だとかいうフルセットの)自然言語を実際にどうこうする手法としては(なんと前世紀中に!)とっくに引導が渡されていた点に注目してほしいです。文脈自由文法であるような、ある「文法」から生成される「言語」の「文」であるかどうかについて、与えられた任意の記号列を判定するプログラムは(たとえばLRパーサのようなオートマトンとして)書けます。特定の計算機言語の記号列として適格かどうかを判定する構文解析には広く使われているようですしおすし。しかし、ある記号列が英語や日本語として適格であるかどうかを完全に判定できるオートマトンが実際に書かれたことはありません。

とりま詳しい話はまたのちほど、ということで。

September 2014

September 26 Friday 2014

再帰と文法

前回の続きです。「再帰(recursion)」についてお浚いしてみます。あとこれが「文法」とどう関係するのか、みたいな。

引用先はいつもの『A Dictionary of Linguistics and Phonetics』(Crystal,D.:1991)ですが、とりあえずはこういうものらしいです。

A simple illustration of how this can be formalised is in the following rules:

NP → Det + N (+ Prep Phrase)
Prep Phrase → Prep + NP

These rules say, in effect, that there is in principle no limit to the number of PREPOSITIONAL PHRASES which may occur following a noun in a noun phrase, e.g. the man in a coat on a bus with his wife... The phenomenon is also known as 'iteration'.

ここで示されたルールは左辺から右辺が生成されるというものです。NPは「名詞句(noun phrase)」のことで、最初のルールではこれからDetとNが生じるとしています。Detは「決定詞(determiner)」のことで英語では名詞の所有格や冠詞の他にeach,every,this,that,some,anyなども含まれます。Nは名詞です。

要するに、名詞句は決定詞と名詞のセットを生じる、というルールです。こういうルールを生成文法派では「書き換え規則(rewrite rule)」と呼んでいます。(一般にX→Yと書いてRewrite X as Yと読むようです)

なんとなく私の感覚とは逆なのでちょっと抵抗があって、たとえばこの場合、決定詞と名詞のセットが名詞句を作り出す...という方がしっくりくるんですけど(たとえば実際の機械部品を分解するときに「Axle with Gears → Axle+Gears」みたいなのは確かに言えるかもしれないけど、だからといって「車軸と歯車が生成された」とはなかなか思えないような...抽象的なものから具体的なものが生じた、って考えにくいんだな、たぶん)まあ、アレです。

例示されたふたつのルールは個別に見ると再帰にはなっていません。カッコの中に書いてあるPrep Phrase、つまり「前置詞句(preposition phrase,PP)」に関してふたつめのルールが規定されており、その中にNPがあるので、ここで再帰になります。

NP→Det+N+(Prep+NP)
NP→Det+N+(Prep+(Det+N+(Prep+NP)))
NP→Det+N+(Prep+(Det+N+(Prep+(Det+N+(Prep+NP)))))

NP→Det+N+(Prep+(Det+N+(Prep+(Det+N+(Prep+(Det+N))))))
NP→the+man+(in+(a+coat+(on+(a+bus+(with+(his+wife))))))

ルールを四回適用(してから各項目を語に置換)すると具体例としてあげられた名詞句が生成されます。また四回目ではNPからDet+Nを生成しただけでPrep+NPを省略したため再帰にはならず、際限なく句が続いていくことはありません。ここで終わりです。引用ではhis wifeのあとにも前置詞句が続いていくことが示唆されていましたので、最後の部分を(Det+N+PP)として(his+wife+...)と置き換えた方がより正確だといえるかも。(最初に引用した部分のルール表記ではカッコが単に省略可能な部分を示すのに用いられていましたが、ここでは階層を表すために使っています。為念)

上で取り扱った内容は、非終端記号の有限集合{NP, Det, N, Prep, PP}と終端記号の有限集合{the, man, in, a, coat, on, bus, with, his, wife}と生成規則の有限集合{NP→Det+N(+PP), PP→Prep+NP, Det→the|a|his, N→man|coat|bus|wife, Prep→in|on|with}および開始記号NPという「文脈自由文法」の四つの項にまとめられます。

ところで、これが「文脈自由文法」であることは確かなのですが『自然言語処理の基礎』(吉村賢治,2000)では「句構造文法(phrase-structure grammar)」とも呼んでいます。つまり文脈自由文法は句構造文法の一種である、という認識です。

>>

けれども『確率的言語モデル』(北研ニ,1999)では句構造文法は書き換え規則に制限がない文法の名前であるとされており、文脈自由文法とは分類上同レベルで排他的関係にあるように見えます(つまり、句構造文法であれば文脈自由文法ではない、という感じ)

>>

どちらもチョムスキーの説による、というようなことを述べつつ、番号と規則の制限度合いとの関係が逆になったりしていて面食らいますが、このふたつはたぶん同じことを言っているのだと考えられます。たとえていうならば「句構造文法、文脈依存文法、文脈自由文法、正則文法」は辺の長さや角の大きさへの制限に着目した場合の「台形、平行四辺形、長方形、正方形」みたいな関係なのでしょう。

「句構造文法」という術語が持つ他の三文法との性質(?)の差を考慮するなら「台形」を「四角形」に変えた方がよりニュアンスが近いかもしれません。「長方形は台形である」と言われれば心理的に抵抗がありますが「四角形である」ならば問題ないでしょう。

以下、「句構造文法」はこのタイプの文法の総称の方で使っていきます。割とそっちが普通の使われ方っぽかったので。一方、regular grammarの訳語はバランスをとって(←?)「正規文法」ではなく「正則文法」にしときます。

なお、句構造文法により生成される言語においては「再帰的に可算」であることと「再帰的」であることは別だそうなので、話はますますややこしいところへ入っていかざるをえない...。

再帰的に可算な言語

吉村(2000)ではこの件について以下のように説明しています。

ある言語に対して、入力された任意の記号列がその言語の文であるかどうかを答えるプログラムを作ることができるとき、その言語は再帰的(recursive)であるといい、ある言語に対して、その言語の文を何らかの順序にしたがって次々に出力するプログラムが書けるとき、その言語は再帰的に可算(recursively enumerable)であるという。(p.14)

これを読んだ限りでは「再帰(=右辺に左辺と同じ項がある)がルールに含まれるかどうか」云々ということは「言語が再帰的である」こととは何ら関係がないようです。おやまあ、という感じ。

具体的なルール(句構造規則、書き換え規則、etc...)に従って文が出力できる(=句構造文法によって生成される)言語ならば、少なくとも「再帰的に可算な言語」であると認定できるらしいです。ただ残念ながら「に可算」という余計な語句が入っているので「再帰的言語」とはちょっと違うみたいですけど。

一方、真の(?)「再帰的」言語というのは、任意の記号列がその言語の文であるかどうか判定できる(ような機械的手続きが存在する)場合だということなんですが、よくわかりません。具体的、または別の言い方で説明するとどうなるんでしょうか。ていうか、そもそもこの定義(?)みたいなのはどこから出てきたのか...(吉村(2000)は簡潔に書かれた理系の教科書ということもあって、このケースのように典拠が明記されていないことが多いのです:汗)

おそらく、上で引用した北(1999)での句構造文法の説明に書いてある「オートマトン」がカギになるのではないかと。「文法」と「言語」と「オートマトン」という三者の関係についてそれなりに抑えておくことが先決っぽいようです。

そういうわけで次回はこの話プラス、生成文法派がその初期(標準理論とか拡大標準理論とか言ってたころ)にほざ...いや、主張していた内容なんかについても簡便にまとめてみたいと思います。文脈自由文法で自然言語を扱えると思ってたらしいんですよね、当時の彼等は。今でもそうなのかもしれませんけろ(汗)。

そんな感じで。

August 2014

August 24 Sunday 2014

チョムま系

チョムスキーが間違っていると指摘するとトンデモ学説扱いされてしまうらしくガクブルですっけよ。以下のtweetに至る一連の発言を目にしてすっかり考え込んでしまいました。

相対性理論は間違っている!→相ま系
進化論は間違っている!→進ま系
チョムスキーは間違っている→チョムま系

何やら一緒くたにして煽ってますが常識的に考えてチョムスキーが唱える理論は上二つと同レベルの定説とはいえないでしょう。そもそも相対性理論や進化論は自然科学ですが、チョムスキーの理論が自然科学に含まれるのかどうかには留保が必要です。

この点については生成文法派にも以下のように書く人がいました。引用は『自然科学としての言語学』(福井直樹,2001)から。

さて、生成文法理論は、いわゆる「理工系」の研究者からは、(「人文・社会系」の研究者の場合と異なり)反感・敵意はあまり持たれないかわり、不満および軽侮の念をもって見られることが多いようである。物理学を中心とする「中核的自然科学」に較べて生成文法が科学として未成熟な段階にあるのはまぎれもない事実であるから、この点に関して言うべきことは何もない。(pp.15-16)

本物の科学者から鼻で笑われる(?)レベルの「未成熟」な段階なら、言っていることが間違っていても全く不思議はなく、そんな理論(?)に異を差し挟んだ程度で「トンデモ学説」扱いされてはたまりません。

また福井(2001)には次のような記述もあります。下線は引用者がつけました。

次に、上で生成文法理論は言語機能に対する自然科学的理論を構築することを通して、言語版「プラトンの問題」の解明を目指す、と述べたが、それに対して、そもそも言語のような領域において自然科学と同様の理論を構築することは原理的に不可能である、とする批判が、主にクワイン、パットナム等によってなされている。チョムスキーは、その著作のいたるところでこれらの批判に対する徹底的な反論を展開しているが、いまだにこの問題に対する最終的な結着はついていないように思われる。ということは、もしかしたら生成文法理論というのは、そもそも原理的に不可能なことを多大なエネルギーを傾けてやろうとしている、ばかげた営みに過ぎないのかもしれないわけである。もちろん、筆者も含めて生成文法の研究者は、言語機能に関する自然科学的理論の構築は可能である、という見通しを信じて研究を続けているのであるが、根源的なところで、結着が未だついていない「論点」(issue)が存在していることを忘れてはいけないと思う。(p.35)

引用が長くなってしまいました。「プラトンの問題」とあるのは「How comes it that human beings, whose contacts with the world are brief and personal and limited, are able to know as much as they do know?(pp.3-4)」のことだと『Language and Problems of Knowledge』(Chomsky, N.:1988)にあります。もともとはラッセルがこういう形に言い換えたものらしいですが。

これを言語に限っていえば、なぜ人間は外界から与えられる個別的で量も質も限られた情報から非常に複雑で豊富な言語に関する知識を均一に得られるのか、つまり誰もが言語を習得できるのはなぜか?という問いになります。

そういうわけで生成文法理論というのは、人間という種には生物学的に(遺伝的に?)組み込まれている「言語機能(language faculty, faculty of language, FL)」がある、という仮説を立てて、それに関する「自然科学的理論」を構築しながら「プラトンの問題」に答えていこうとするものなのだそうです。

一見すると至極もっともな話に思えるのですが、上記引用下線部分には「原理的に不可能」というような批判があることも指摘されています。人間の言語機能を科学的理論で解明することが「原理的に不可能」という意味にとると「?」ですが、おそらく「(生成文法派が)科学的(だと自負している)理論(とやら)で」ということかと。「科学的」という語の指し示す内容は人によってかなり違いますので。

それともうひとつは、生得的な言語機能のみが言語の習得において重要な役割をしており、環境的な要因は(使用する言語を特徴付けるような)パラメータのオン/オフを決定する役割くらいしか果たしていない、という前提への懐疑ではないかと推察できます。この前提が正しいのかどうかについて十分な検討がされている形跡はありません。つまり、特定の言語を用いている共同体が、言語習得に際して社会的な面(?)でもたらす影響や言語機能との関わりについて、ほとんど考慮する必要はないと(希薄な根拠で)断じてしまっている部分への疑義なのではないでしょうか。

ピダハン語を巡る議論

ところで、そもそもどういうところから「チョムま系」などという煽りが出てきたのかというと、「ピダハン語」なるものを介してチョムスキーの理論を否定できる、と言い出す研究者が現れたとかなんとか。そしてその件に関するドキュメンタリー番組が放送されたことがきっかけだったようです。

この「論争」については生成文法派側から以下のようなまとめ(というか論破?)がなされています。

>> Faculty of Language "Why this blog?"(Hornstein, N: 2012)

This blog is the direct result of an article by Tom Bartlett in the May 12, 2012 issue of the Chronicle of Higher Education. The article reports on a “debate” pitting Chomsky (“the discipline’s long-reigning king”) against Dan Everett (“the former missionary” and “true-blooded Chomskyan” whose belief in God and Chomsky “had melted away”). Everett’s claim is that Pirahã (an indigenous language spoken in Brazil) fails to display recursion and that this conclusively demonstrates that Chomsky’s conception of Universal Grammar (in which recursion is the defining property) is wrong.

このblog記事の書き手はNorbert Horsteinで「Will one researcher's discovery deep in the Amazon destroy the foundation of modern linguistics?」という見出しでTom Bartlettが書いたEverett vs. チョムスキーという内容に対する反論です。Everettによる主張の骨子を以下に簡単にまとめてみます。

(1) 普遍文法とはすべての言語に共通する文法である
=普遍文法の全要素はあらゆる言語の文法に含まれる

(2) 再帰は普遍文法に含まれる

(3) 故にすべての言語文法には再帰が含まれる
=再帰を含まない文法を持つどんな言語も存在しない

しかし、ピダハン語文法には「再帰(recursion)」が存在しない。つまり、すべての言語文法に再帰があるとはいえない、となるのだから結論は偽である。だからこの三段論法の前提は成り立たず、故にチョムスキーの生成文法理論は間違いだ、となる。(補足:(1)かつ(2)ならば(3)という三段論法における前提と結論のあり得る真理値の組み合わせは真真、偽真、偽偽の三つです。真偽の場合には三段論法自身の真理値が偽になってしまいますが、後述するように恒真命題ですのでそれはありません。よって結論が偽のとき、前提は必ず偽になります)

いうまでもないことですが(しかし文系ちゃんだとあんまり知らなかったりするのですが、てかオイラも最近知りました:汗)三段論法はトートロジー(恒真命題)ですので、この形式そのものには異論を差し挟む余地はありません。「PはPである」というのと変わらんからです。当然「notPはnotPである」ことになります。

>>

上に一応証明(?)みたいなものを載せておきます。全体集合(U)は「PまたはnotP」のように命題とその否定の双方を含んだ領域です。これと「かつ」で結ばれた集合との演算結果はその集合自身、「または」で演算されると全体集合になる、というあたりがポイントでしょうか。あと必要な知識は「ド・モルガンの法則(De Morgan's laws)」くらいです。(命題と集合をゴッチャにした書き方をしてますが論理と公理的集合論は同じもの(?)らしいので、まあ、アレということで...)

これに対してHorstein(2012)では(上で三段論法としてまとめたような)Everettの生成文法理論解釈について、(1)にあたる部分が誤認であると指摘しています。下線は引用者がつけました。

So what’s UG? It is the general recipe in FL that humans have to build grammars of natural languages. (...) Well it’s this: Chomsky’s claim is that the distinctive characteristic of UG is that it contains recursion. This is the defining property of FL, which, recall, is the human capacity to acquire language. This does not imply that every human language grammar deploys recursion. It does imply that every human can learn a grammar that is recursive.

最初の下線部にある「UG」というのが「普遍文法(universal grammar)」のことです。FLは前出の術語「言語機能」です。また『チョムスキー理論辞典』(1992)によれば「言語習得装置(language acquisition device)」と同じものと考えてよいそうです。

以上に基づいてEverettによる普遍文法の定義を修正すると(3)は「故に(すべての人間が持つ)言語獲得能力には再帰が含まれる」ということになります。これはHorstein(2012)上記引用部分の最後にあるように「すべての人間が再帰的である文法(の言語?)を習得し得る」に言い換えが可能です。

前出のド・モルガンの法則に従って否定してみると「再帰を持つ文法を習得できない人間が存在する」という命題になります。ですから改訂版三段論法に基づいて生成文法理論を否定しようとするのであれば「ピダハン語の文法に再帰がない」事実は(真実であればかなり衝撃的ですが)もはや論理的には何の(直接的)影響もありません。

Pirahã children have no trouble learning Brazilian Portuguese (an undisputedly recursive language)

加えて上記のような再帰的文法習得事実の指摘がなされており、こうしたことを踏まえるとEverettの主張は完全に論破されたように見えます。生成文法派による見事な反撃と勝利(?)ですが、しかし一方で妙な違和感や割り切れなさも(私には)残ります。

完全論破?

たとえば「Pirahã children」が「ピダハン語話者である子ども」を指すのか「ピダハン族の子ども」のことを言っているのか判然としません。前者であれば再帰的な文法の言語もそうでないのも同程度に流暢に話せるバイリンガルになってメデタシメデタシですけれど、後者であればポルトガル語に支障がなくてもピダハン語に負の影響があった(=不完全または変種を習得した)可能性もあります。

というか、なんで子どもの話だけなんでしょうか。そもそも生成文法理論は第一言語獲得に関するもの(らしい?)ので、ピダハン語のモノリンガルとして成長した話者に関しては考察の対象外であって、そうした人間が「再帰」を習得できなくても「再帰的文法を習得できない人間がいる」ことにはならないってことなのでしょうか。

ずいぶん生成文法側に有利な条件設定のような。

そして社会や文化に関することは一切度外視したうえで、ピダハン族であっても(生物的には同じ集合に属する対象である子どもたちに限れば)再帰的文法が習得できるのであるから、他地域の人間と異なる遺伝的欠陥(?)や差異は存在しない、といった意味の話をしているのでしょうか。うーん...(現代の日本人である私などは疑念すら持ったことがないような人種差別的問題意識を前提にした議論なのかしらん?)。第一言語獲得の際に(環境とは全く独立に)人種的要因が影響を与える可能性については考えたこともありませんでした。

その他にも、Horstein(2012)で再帰について言われている仕方で普遍文法を理解すると、Everettの誤解(=すべての言語文法に共通する要素)とは反対に「あらゆる言語文法の要素をすべて包括する集合」ということになってしまいそうなところにも引っかかります。言語によって有無の違いがある要素をすべてパラメータのオン/オフで説明してしまうと(つまりすべての要素は獲得可能だがたまたまある言語ではオフになっていると考えるなら)これまで存在したすべての言語が有する全部の要素を重複しない形で潜在的には保持していたと考えなくてはなりません。

普遍文法がなんだか際限なく巨大なものになりそうだし、何をパラメータとするかについていくらでもどうとでも言えそうな気がします。そんなんでいいんでしょうか?(生成文法派の現在の流行(?)はminimalist programというののままらしく、それだとパラメータ制限を試みているみたいです。Horstein自身がどんな考え方をしているのかは調べていないのでわかりません:汗)

収拾がつかなくなってきたので疑問点をまとめます。

まず「再帰的文法が習得できない人間が存在する」場合の実例を具体的にイメージすることが難しい点。「習得できる/できない」の判別問題といいますか。

それと普遍文法(a.k.a.言語習得装置)がどういうこと(もの?)なのかさっぱりピンとこない点。「言語獲得能力を記述したもの」というフワフワした言葉遊びのような定義とHorstein(2012)で「再帰」に関して実際に述べられた内容からは、普遍文法の解明に際しての具体的手段や、その役立て方に関するイメージが全く持てません。

上記二点について次回もう少し考えてみます。前回の最後で(本来なら今回)考えてみたいとしていた「言語の写像モデル」的なものと絡める形でまとめというかお浚いしておきたいな、と。

ていうか写像や関数的なものと一切無関係な(数理的処理を含んだ)モデルは考えようがないので、「言語の写像モデル」という呼称は再考した方がよさそうです。なんかうまい言い方ないかな...。

May 2014

May 12 Monday 2014

クラスター分析の光と闇

色々なところで目にする「写像」という術語なのですが、どうにも意味がとりにくいときがあります。上から目線で「それは誤用だろ、ボケがっ!」と即断できるほどの知見は全く持ち合わせていませんので、そうした事例に遭遇するたびに(どう解釈したらよいのだろう?等々)アレコレ悩みつつ調べたりする時間が無駄すぎて泣けてきます。

てか、写像って「関数」のことらしいので、それなら話は簡単かと思いきや、そうもいかん感じです。以下引用は『身近な数学の記号たち』から。

集合Aの要素と集合Bの要素との対応で、Aのすべての要素xに対して、Bの要素yがそれぞれ1つ対応するような対応fのことを写像または関数という。このとき、Aを定義域、Bを値域という。Aからうつってきたもの全体f(A)をAの像という。(p.84)

いきなり蛇足ですけど要素「x」とか「y」というのは英語でいうところの冠詞なしの名詞みたいな意味というか用法です。「x1,x2,x3,x4,...,xn」という個々の(具体的な?)要素全体を示しているけど複数ではない・・・的な、単数でも複数でもないが抽象的でもない何か、みたいな概念だと思うのですけど、日本語母語話者でモノリンガルの私には昔っから納まり悪く感じられています。非常に「性質」的だがあくまで「対象」である、という日本語には無いカテゴリー分けへの拘りを前提としている、つまり「対象」と「性質」との間に馴染みのない基準で線引きしていること(およびそれを自明で自然だと信じて疑っていないこと)への違和といいますか。

大文字で書く集合名のAとかBとかいうのは「性質」につけられるもので、小文字の「x」などは「対象」ということみたいですが、結局どっちも同じようなことを指し示しているようないないような。よくわかりませんが。

さて、話をもどします(汗)。

集合Aが1から3までの自然数を要素とする({1,2,3})とき、集合Bが{5,11,21}ならば、両集合の要素を対応づける写像fとは「y=2x^2+3」みたいに要素xと要素yを対応させる関係ということになります。たぶん。

このとき写像fによって対応させられる集合AとBの各要素xとyのペア((x,y))を要素とする集合も考えられます。具体的に書くと、ここでは{(1,5),(2,11),(3,21)}です。これは集合AとBに対する直積集合(具体的には{(1,5),(1,11),(1,21),(2,5),(2,11),(2,21),(3,5),(3,11),(3,21)})の部分集合といえます。

2つの集合A、Bに対して、それらの要素の対(a,b)の全体がつくる集合をAとBの直積といい、A×Bと書きます。(略)これはちょうど、集合A、Bを座標軸のように考えて、ペアをつくったものです。その意味で、普通の座標平面R^2は2つの数直線Rの直積R×Rと考えることもできます。(pp.227-228)

引用は『家庭の算数・数学百科』から。ところで、なぜ直線「R」なんでしょうか。座標軸が表しているものが実数だからですかね。わかりませんが。それと、直積は「デカルト積」とも呼ぶらしいです。デカルトは「座標」を発明(?)した人でもあるらしいとか聞いたこともあるので、それはそうなんかな、っと。

ま、そんなこんなでこれからネタにする内容に関した初歩的知識の言及は済んだということで本題っぽいものに入ります。要するに下記の内容に「?」な箇所があったということだったんですけろ。

>> 三中信宏「クラスター分析の光と闇」2004(PDF)

主張そのものには全く異論はなく、というよりも自分の研究にひきつけて積極的に「そうそう、その通りでんがな!もっといって!」と声援を送りたくなる内容です。たとえば論の冒頭に以下のようにあります。

分類とは外在する離散的実体を発見する行為であると考えるのはまちがいである。むしろ、時空的に連続する外界を人間が理解するために、離散的なカテゴリー(類や群)を認知的に造りだしていると考えるべきだろう。

言語が可能になるためには、まず語という単位が必要であり、これは連続的である外界から離散的に(?)記号を切り出すことで成立します。先にモノ(やコト)が確固たる存在としてあり、それにラベルを貼ることで語が成立するわけではありません。「言語を名称目録と混同してはならない」というおなじみのヤツです。

とはいうものの、こうした考えを拒絶または無視したり、理解しているつもりになっているけれど実は全く身についていない、という方が多数派だったりもします。言語の研究に興味がないフツーで正常かつ真っ当な(←!)人々がそうだというなら別に驚かないのですが、所謂言語学者のセンセー達もそうだったりするのでなんだかなー、という感じ。

そうなっちゃう原因のひとつは、たぶん公理的集合論なんじゃないかと推測できます。もともと数学での話なのですが(数学者の中には「これは数学とはカンケーネーヨ!」とかおっしゃる方もいるので文系ちゃんとしては大混乱します:汗)強引に言語モデルにも当てはめちゃったりしたときに、たとえば連続的である実数と離散的な自然数という対比が、なんつかこう、どんな文化や人間においても普遍的な認知構造(?)っぽいから言語もそうなんじゃね?みたいな。

と、いう話をはじめると収拾がつかないので先に行きます。

三中(2004)をフンフンナルホドと読み進むうちに5ページめの最後から始まる「距離指数の原理」というパートで「x,yを任意のOTUとするとき、ある写像phi(x,y)が計量(metric)であるためには、次の4条件が満足される必要がある」という記述が出てきました。「phi」と書いて引用した部分は元の文書ではギリシア文字の小文字です。あと言い忘れてましたが、いつものように句点と読点も変えています。「OTU」はoperational taxonomic unitの略です。

ある写像phi(x,y)が計量であるためには

OTUは「対象物」とか「操作的分類単位」とも呼ばれています。クラスター分析で群つまりクラスタに分類される対象というか単位です。類似しているとみなせるOTUをひとまとまりにしていくつかのクラスタに選り分けていくわけですが、このとき「類似性」をどう定義するか、というのが腕の見せ所(?)でしょう。

分類には基準が必要で、それはなんらかの尺度を利用して設定されます。「距離」もこうした尺度のひとつです。

>>

ここで述べられている話そのものは馴染みがあるのですが写像云々のところで引っかかりました。説明が端折られているんじゃなかろうか、と。想定される読者はこのあたりのことは常識だったり、またこれは集中講義の資料みたいなので必要な補足は授業の中で適宜行うというつもりで簡単に流したのかな?

と、いうところで先述した集合Aを再利用してちょっと考えてみます。

Aは{1,2,3}を要素としてもつ集合でした。このときphi(x,y)によって作られる写像の像はphi(A)ではなく、phi(A同士の直積)みたいなものになると考えられます。xもyも集合Aの要素であるので(x,y)は(具体的には1と2と3という三つの要素同士の掛けあわせによる)9種類のセットを意味するからです。イメージ的(?)には以下のような感じ。

>>

写像phi(x,y)は{(1,1),(1,2),(1,3),(2,1)(2,2),(2,3),(3,1),(3,2),(3,3)}を定義域とするということになります。これに対応した値域を具体的にはどう求めるのかわかりませんので、とりあえずphi(x,y)=y-xなどとしてみましょう。そうすると{0,1,2,-1,0,1,-2,-1,0}と計算(?)できて値域は{-2,-1,0,1,2}みたいな感じにまとめられます(定義域のすべての要素が値域のすべての要素と対応していますが重複があるのでこれは「双射(全単射)」ではなく「全射」です、たぶん)。以下に行列っぽい感じで示してみます。数学的にちゃんとした表記ではありませんが。

>>

まず上段について説明します。

集合Aを{a1,a2,a3}(a1=1,a2=2,a3=3)としたとき、要素はOTUに該当します。二つのOTUをセットにした(x,y)は具体的には{(a1,a1),(a1,a2),...,(a3,a3)}のことですから、長い矢印(意味は「ならば」とか「のとき」)の右側に行列っぽいので表しました。この行列のたとえばa_11という要素には(a1,a1)つまり(1,1)が入って(?)います。なんか説明しにくいですが。というか面倒なので若干端折ってますけろ(←!)。

それから写像phi(x,y)によって計算(?)されたいちばん右の行列をみるとまず4条件のうち「確定性」については(左上から右下への対角線上に0が並ぶので)満たせそうとわかります。しかし「非負性」と「対称性」は明らかにダメっぽいです。どうみても負の数はあるし対称でもありません。残りの「三角不等式」については試算してみると意外と大丈夫くさいです。

いずれにせよ4条件のうち2個だけしか満たしていないので写像phi(x,y)をy-xと定義するならば写像の像は「計量」といえないことになります。

そこで少し改良を試みたのが下段です。写像phi(x,y)を(y-x)^2と定義しました。これで上でダメだった2条件は改善されます。0は二乗したところで変わりませんから確定性も大丈夫です。ただ三角不等式は満たせなくなりました。

やはり4条件には適合しないので「計量」ではありませんが、最初に定義したy-xと違ってこちらは「距離」的であるための必要条件は満たしています。物理的解釈は不能だが「距離」的ではある...というのもよくわからん話ですが。

別の改良案として写像phi(x,y)をy-xの絶対値と定義することもできます。これですと4条件をすべて満たせました。実は(テキトーに思いついただけの:汗)この定義式は「ミンコフスキー計量」によって導出されるものと同じです。

そんなこんなで三中(2004)でのこれらの数式の表示が(少なくとも私の環境では)メッチャおかしくなっているのでそれの修正・復元の意味も含めてとりま以下に示しておきます。

>>

今回使った簡単な例では各OTUがそれぞれ1か2か3というひとつの数値のみに関連付けられていました。ですのでp=1であり第k形質値は常に1です。またマンハッタン計量でもユークリット計量でも同じ値になります。

ええと、話があっちこっちいってしまったので次でちょっとまとめます。

記号と用語

一般化について考えてみます。

>>

ここまで例として用いてきた集合Aを上図上段で説明しています。Aは三つのOTUを持っており3以下の自然数でした。これは各要素がそれぞれp個からなる数列を持っていて中段に示したようにr個からなる集合へと一般化できます。

このr個のOTUで写像phi(x,y)のためにペアを作ると下段右の行列になります。と、ここまで書いて(ようやく:滝汗)気づいたのですが非常に紛らわしい書き方になってしまっています。2個のOTUでつくるペアに関してはaではなくて別の文字を使えばよかった...(萎)。

OTU同士の距離はそれぞれp個ある数列の同位置(?)要素間の差の絶対値みたいなものをもとに計算する形で一般化できます。マンハッタン距離であれば単にそれらの総和という感じでしょうか。ユークリット距離であれば差の二乗の総和の平方根のうち正のもの、ということになります。

試みにp個の要素からなる数列に関連付けられたr個のOTUのうちa1とa2のペアについてのみ一般化すると下記のようになりました。OTU同士の組み合わせも含んで全体を一般化した数式はメンドクサイ(←!)ので割愛しときます。

>>

このあたりの議論に関しては『Multidimensional Scaling』(Kruskal,J.B. and Wish,M.:1978)のNotations and Terminology(pp.15-19)で整理されているのを読んだのが最初だったように記憶しています。邦訳は『多次元尺度法』(クラスカルとウィッシュ)。ちなみに論文ではKruskal(1964)のpp.21-24なんかにもあります。まあ、これについて触れたものはどこにでもあると思うのでアレですが。

三中(2004)では「ユークリット計量」「マンハッタン計量」と「計量」すなわちmetricが用語に使われていましたがKruskal(1964)等々ではEuclidean distanceなどのように「距離」となっています。ここでいう「距離」は日常語の距離(特に直線距離とか最短距離といった場合)と似た意味ですので混乱しないのですが、「計量」の方はあくまでmetricの訳語なため少々違和を感じるものとなっています。

またKruskal(1964)等々のものは表題にある通りMDS(多次元尺度構成法)に関する議論の中で出てきており、クラスター分析を扱った三中(2004)とは若干違った視点からのものといえるかもしれません。OTUに関連付けられている数列はMDSでは座標を表し、数列に含まれる要素数は次元数と理解されます。

Strictly speaking, a point is a geometical object and is distinct from the sequence of coordinates which represents it. However, we shall follow the common custom of talking as if the point were the same thing as its R-tuple of coordinates. The distance between the points of X play a central role in MDS.(Kruskal and Wish(1978) p.17)

点が幾何学的実体であってそれを表す座標(であるR個の要素からなる数列)とは別であるが慣習に従って同じとみなすと言っています。こう書いてある趣旨についてはよくわからないのですが、数列を座標とみなしたときに該当する点が幾何学上(?)矛盾しない形で存在し得ない場合もあるとかそういうことかもしれません。MDSもクラスター分析も畢竟作図の問題ともいえますので、そうしたあたりで「計量」の条件についての話がなされるということなのかな?

と、ダラダラ考察(?)してきましたが、このケースでの「写像」という用語については一瞬こっちで勝手に混乱したものの、考えてみれば至極当たり前としかいいようのないものとわかりました。三中(2004)は後半のクラスター分析に関するまとめもわかりやすく(デンドログラム上のOTU間距離をどう作図するのかの具体的アレコレの点でちょっと説明をトバしている気配もなくはないのですが、付録の資料にそれ系のものも見受けられますのでたぶん授業の中では補足なさったのでしょう...)こういうものをネット上に公開していただけるのは本当にありがたいことでござる(←!)。幸多かれ。

ついでに便乗してこのままクラスター分析のアレコレについてもお浚いなどしておきたいところですが、その前にもうちょっと「写像」というか「言語の写像モデル」的なものについて次回考えてみたいと思います。

そんな感じで。

Copyright(c)2006-2014 ccoe@mac.com All rights reserved.