September 2006

September 6 Wednesday 2006

順列・組み合わせの表記法

そういうわけで、早速先行研究関連でヒトコト。「確率」で用いる「順列(permutation)」と「組み合わせ(combination)」の表記法に関することなんですけど。

ええと『計量情報学』の出だし付近で二項分布関連の数式が出てきます。こんな感じ↓のです。


参考までにこの数式が出てくる直前の部分(p.14)を引用してみますね。なお原文通りにするのが技術的&心情的に不可能な箇所は改変しました。アンダーバーは右下に添字するという意味ですので脳内補完してください。句点と読点は日本語正書法に従って変えています。

今、壷の中のボールに書かれているS個の数字のうち、ある数字e_iに注目することとする。壷全体でN_p個あるボールのうち、この数字が書かれたボールがk個壷の中にあるとして、k/N_p=p_iと表そう。さて、壷から復元抽出によりN個のボールを取りだしたときに、そのN個の中でe_iという数字が書かれているボールの数を確率変数Xと見なすと、数字e_iの書かれたボールがN個の中のちょうどm個である確率は、

初見でわかりにくい用語は「復元抽出」くらいでしょうか。この場合でいうとこれは取り出したボールはもとに戻してから次のを取り出すという方法のことです。引用部分は文の途中で終っていますが最後の「確率は、」の「確率」がPr(X=m)を指しています。確率変数XがmであるPrということでPrはprobabilityのことですね。

「(サンプル抽出した)N個の中でe_iという数字が書かれているボールの数」が「確率変数X」であり、それが「ちょうどm個」ということなので「出現率」と「出現しない率」がちょうど良い塩梅じゃないといけないことも感覚的にわかりやすく理解が容易な感じにも見えるのですが、一カ所だけ「謎」っぽい部分があります。いや、私は「ある」と思ったんですけど、どうなんですかね。

この本の「本書の構成と対象読者」のところに「確率・統計の基本的な用語および確率論に関する初歩の知識があった方がわかりやすいであろう(p.7)」とあるので、単に私が対象読者のレベルに達していないだけかもしれないですけど。

ちなみにどこが「謎」なのかというと行列というかベクトルみたいな部分です。カッコ内でNとmが縦に並んでいる部分。これって何かというと combination を表しているんですね(combinations と書いた方が良いのかな?)。N個のなかからm個取り出した場合の combinations を表しているわけですよ。

だからもうちょっとわかりやすく書くとこうなる↓わけです。


そしてどうしてこうなるか...について少年(←!)だったころの朧げな記憶を呼び覚ましてみると、確か permutations を利用してどうにかしたような。この件に即して具体的にいうと次のような感じでしょうか。

N個の中からm個を取り出す場合の permutations はN個の中からm個取り出す combinations の結果に対してm個の中からm個を取り出す permutations を行った結果であるとも考えられる。よって以下のような感じになる(←投げやりだな:笑)。


1行目はN個の中からm個取り出す permutations を求める式です。「!」は階乗を表します。N=10でm=3とかなら10×9×8となりますが、これは感覚的にわかるんじゃないかと。2行目と3行目で combinations を permutations で表しています(←こんな変な表現で良いのだろうか)。4行目は一応参考として0の階乗が1であることをメモしたものです。5行目は1行目のNにmを入れたら自ずと導きだされる式ですが3行目理解の助け(?)として一応書いておきました。

ただこうして書いたり考えたりしてみても最初に感じた「謎」は残ってしまうんですよね。上の式で私は「N個の中からm個取り出すcombinations」についてC(N,m)と書いています。昔ガッコーで習ったときには大文字Cの左下にNを、右下にmを小さく書くというやり方をしていました。ちなみに permutations なら真ん中の大文字はPになります。C(N,m)とかP(N,m)とかいうように書く方が「今風なのだと最近知った」&「TeXで表記しやすい」ことから私もこの書き方に直したのですけど、影浦先生の数式はそれとも違う表記法なわけです。

ただ一応の理由付けとして「Baayenがそう書いているからじゃないか?」というのは思いつきます。Baayenは名著『Word Frequency Distributions』の中で combinations をああいう形で表記すると(例えばp.41のDefinition2.6などで)定義して使っていますのでそれに倣ったと考えれば不思議でもなんでもないかもしれません。

でも私はBaayenの著作を持ってましたのでピンときましたが影浦先生の著作しか持っていないヒトで私のようなボテボテ(?)の文系には最初の躓きの石になるかもしれないなあ、という感想をやはり持ちます。まあ隣のページ(p.15)を見れば式の展開の中で該当する部分がありますからそこを参照すれば自力で理解できるのかもしれませんが。

・・・とここまで書いてからおもむろに『すぐわかる統計用語』で「2項分布(binominal distribution)」を見たら影浦先生(及びBaayen)みたく combinations の部分を表記してますね。ああ、これは非常にフツーの書き方ということなのか(滝汗)。

あと今この文章を書いていてつくづく思ったのですけど、どうしてHTMLってTeXより後に開発されたくせにTeXの数式タグに対応してくれていないんですかね。ま、考えるまでもなく理由は想像つきますけど(笑?)。

Comments | Corpus


Copyright(c)2006-2012 ccoe@mac.com All rights reserved.