hirax.net::Keywords::「クラスタ」のブログ



2001-02-19[n年前へ]

ひとりで書いてるだけだから。 

ヘッポコ文章を直したい


   面白い情報を探しにと「お笑いパソコン日誌」を眺めていると、「ウエヤマの事件簿」の「他人の日記をオモチャにしよう!」が紹介されていた。「お笑いパソコン日誌」に〜『できるかな?』風ネタであります〜と紹介されてあった通り、実に私好みの話だった。ウエヤマ氏が「自分で書いてる日記の文章」を解析して、文字の出現頻度を調べてみたものである。

 「できるかな?」は画像や科学の関連の話が多いように見える。しかし、実はそれだけではなくて文章や日記に関する話も多い。例えば、これまでに出てきた話を振り返ってみると、

に始まり、と続く、「文学の世界を眺めてみよう」という話など、あるいは「WEBページで見かける文体の特徴を解析しよう」としたなど、あるいは「WEB日記の文化を眺めて見たい」というなどの話があった。「技術サイト」という分類をされることも多い本サイトではあるのだけど、非技術的な話に強引に技術的な話を持ち込みたくなったり、技術的な話なのに何故かとても私的で非技術的な話が入ってしまったりするのが、良くも悪くも「できるかな?」の特徴だろう。もちろん、良いことでは全然無いのだけれど、こうでも書かないと悲しい気分になってしまうので、「良くも悪くも」と書いているのである。

 そういったhirax.netの特長ならぬ特徴は私が書く文章が下手なせいなわけで、そんなヘッポコ文章から脱出するべく、私の書く文章の特徴を調べて反省してみることにした。もちろん、自分のヘッポコ文章だけを眺めてみてもしょうがない。他の素晴らしい文章を書く書き手と比較しなければならないだろう。そこで、今回はいくつかの文章を品詞解析し、その結果の特徴を調べることにする。そして、書き手による文章の特徴が眺めながら、私のヘッポコ文章の欠点を調べ、さらには誰もが思わず涙がこぼしてしまうような素晴らしい文章を書けるようになりたい、と思うのである。
 

 さて、まずは目標を決めよう。私がヘッポコ文章を脱出してどんな文章を目指すかを、何より先に決めなくてはならない。となれば、あまりにも大それた目標ではあるのだが、やはり日本の文豪、夏目漱石は外せないだろう。そして、その教え子でもある寺田寅彦もやはり外すわけにはいかない。一応私も理系のはしくれ、日本の理系文章の流れを作ったこの二人を目標にしなくてなんとしよう。ヘッポコ文章を脱出していきなり、夏目漱石と寺田寅彦というところに無理があるが、そんなことを考えていては駄目なのである。「少年よ大志を抱け」とクラーク博士も言ったのである。もう少年と言うにはどう考えても年齢的に無理があるのだが、気持ちはまだまだ少年で目標は大きく持ってみたいと思うのである。

 そして、もう一人の目標は「ちゃろん日記(仮)」をマイペースに書き続ける「ななゑ」さんである。私は彼女の書く文章を読むたびにとても素晴らしい理系的センスが感じ続けているのである。しかも、理系的でありつつも笑いと涙のペーソスたっぷりの「ちゃろん文体」という独自の確固とした文体を築いているところも尊敬していたりするのである。

 というわけで、今回の文章の比較は

  1. 夏目漱石
  2. 寺田寅彦
  3. ちゃろん日記(仮) ななゑ
  4. 「できるかな?」 jun hirabayashi
の四人の書き手の文章を適当に二つずつピックアップして、その文章を品詞解析して簡単に特徴を眺めてみることにした。各書き手に対して、それぞれピックアップした文章はである。なお、夏目漱石と寺田寅彦は「青空文庫」から入手した。そして、これらの文章を日本語形態素解析システム茶筌&perlで解析後、Excelでさらに解析・表示を行ってみることにしよう。

 ところで、形態素解析とはどのようなものだろうか。まずは、例を挙げよう。例えば、

私が好きな書き手達は、夏目漱石、寺田寅彦、ななゑさんです。
という文章を茶筌で分解すると、
  1. 私 名詞-代名詞-一般
  2. が 助詞-格助詞-一般
  3. 好き 名詞-形容動詞語幹
  4. な 助動詞
  5. 書き手 名詞-一般
  6. 達 名詞-接尾-一般
  7. は 助詞-係助詞
  8. 、 記号-読点
  9. 夏目 名詞-固有名詞-人名-姓
  10. 漱石 名詞-固有名詞-人名-名
  11. 、 記号-読点
  12. 寺田 名詞-固有名詞-人名-姓
  13. 寅彦 名詞-固有名詞-人名-名
  14. 、 記号-読点
  15. ななゑ 名詞-固有名詞-人名-名
  16. さん 名詞-接尾-人名
  17. です 助動詞
  18. 。 記号-句点
というようになる。このように各文章を品詞毎に分解して、その出現分布から特徴を調べてみるのである。なお、今回注目した品詞は
  1. 読点
  2. 形容詞
  3. フィラー
  4. 感動詞
の四つである。この四つを選んだ理由は、読点は明確な決まりがないだけに書き手の感覚が入りやすいと思われ、形容詞、フィラー・感動詞に関しては書き手の気持ちが素直に現れやすいと思われるからである。ちなみに、フィラーとはから引用すれば、「あのー」「えー」といった語句ということになる。まずは各文章が書き手によってどのくらい特徴づけられるかのイメージを掴むために、形容詞の出現頻度とフィラーの出現頻度を軸にとり、各文章を二次元の世界に配置してみた結果を図示してみよう。
 
形容詞の出現頻度とフィラーの出現頻度を軸にとって、
各文章を二次元の世界に配置した結果

 結構、同じ書き手による文章が同じような位置に配置されることがわかると思う。ちゃろん日記(仮)などは、二つの独立した文章がほとんど同じ位置に配置されている。もう、ちゃろん文体は安定しまくっていて完成されているのである。そしてまた、「文豪」夏目漱石の場合も、「我が輩は猫である」と「坊っちゃん」がかなり近い位置に配置されていることがわかる。

 なるほど、結構書き手による特徴はこんないかにも雑な解析でも評価できるものなのかもしれない(あくまで「遊び」だけどね)。そして、形容詞の出現頻度などは、「雪だるまがいる景色」と「自然と生物」以外は大体同じようなものである。寺田寅彦の「自然と生物」は妙に形容詞の出現頻度が高いところが面白いところである。私の「雪だるまがいる景色」はあまり技術的な話ではなくて、確かに形容詞が多そうな話ではあるのだが、一体「自然と生物」はどうだっただろうか?

 ちなみに、「できるかな?」からの二つの文章は共にフィラーが一個も出てこない。その他の6つの文章にはフィラーが出てくるのであるが、何故か「できるかな?」の二つの文章にはフィラーが含まれていないのである。この差がなければ、寺田寅彦の二編と「できるかな?」はかなり似た場所に位置するのであるが、このフィラーは特に違うのである。

 さて、上の図ではフィラーと形容詞の出現頻度だけを眺めてみたが、読点、感動詞の出現頻度も加えて、クラスター分析を行ってみた。つまり、「読点・形容詞・フィラー・感動詞」の出現分布が似ているものを分類してみたわけである。クラスター分析にはExcelアドイン工房「早狩」の統計解析アドインを使用させて頂いた。ちなみに、クラスターの結合はウォード法を用い、非類似度計算法には標準化ユークリッド平方距離を使用した。その結果が下の図である。
 

クラスター分析の結果

 このクラスター分析の結果を示す図は近い文章をまとめていったものを示している。つまり、文章の「近さ」あるいは「似ている度」を示しているのである。ちゃろん日記(仮)の二編は本当によく似ていて、また夏目漱石の書いた二編も互いに似ている。そして、それより「近い度」は低いが「新宿駅は電気羊の夢を見るか?」は「科学について」に近くて、「雪だるまがいる景色」は「自然と生物」に近い。おして、さらに似ているものを探せば、ちゃろんの二編と「新宿駅は電気羊の夢を見るか?」・「科学について」は似ているといえなくもない、さらに言えばその四編と夏目漱石の二編が似ている。

 ここでは、四人の書き手がいるということが私には判っているので、あえて四つのクラスターに分解してみると、

1.
    • 「雪だるま」がいる景色
    • 自然と生物
    2.
    • 新宿駅は電気羊の夢を見るか?
    • 科学について
    3.
    • ちゃろん日記1998(仮)11月上旬
    • ちゃろん日記1999(仮)6月上旬
    4.
    • 我が輩は猫である
    • 坊ちゃん
という風になる。やはり夏目漱石とちゃろん日記に関してはこんなチープなごく少数の品詞解析でも、「作者の文体が同じである」と解析されてしまうのである。なかなか、スゴイとは思わないだろうか?数多くの解析をしてみるのもなかなか面白いと思う。高校生のレポートくらいだったら、これで何とか書けそうである。

 しかし、その一方で考えてみれば寺田寅彦の名随筆と「できるかな?」のヘッポコ文章が「文体が近い」と解析されてしまっているわけなので、実はこの解析の信頼性はかなり低いと言わざるを得ないところもあるのである。いや、もしかしたら「文体は同じやけど、内容が全然違いますがな」というような冷たいアドバイスを解析結果は言わんとしているのかもしれないが、もうそれは哀しすぎる事実なので考えたくないのである。

 さて、そう言えば一番最初の図で「できるかな?」と寺田寅彦の差はフィラーの出現分布だったわけであるが、「大学の講義における文科系の日本語と理科系の日本語-- 「フィラー」に注目して --」では、「聞き手への働きかけのあるフィラーが多いということは聞き手への配慮が大きいということにつながる」と書いてあった。ということは、フィラーの出現分布は聞き手への配慮に比例するというわけで、「できるかな?」の文章にフィラーが出てこない、ということは読み手に対する配慮がない、なんてことなのかなと思ってしまったりするのである。

 そんなことを考え出すと、ホラどうせひとりで書いてるだけだから読み手のことなんか考えていないのさと、思わず涙がこぼれてしまうような哀しい気持ち、になったのである。う〜む、最初は誰もが思わず涙がこぼしてしまうような素晴らしい文章を書けるようになりたいと思ったったのに、何でこんな結論になるんだろう?

 答え: それは文才がないからです。ハイ。
 
 

2002-06-29[n年前へ]

阿部製 純愛スクリーン 

 阿部淑人氏による「純愛スクリーン」。つまりは、「純愛で世界を描ききれ」に登場する「シミュレーテッド・アニーリングによるディザマトリックスの最適化」の報告をされていたご本人に作って頂いたモノ。ありがたいことです。「当然ながらディスパーストのほうが結果はよろしいようです」とのコメント付きです。
 使い方は、Photoshopかなんかでパターンに使用して、スクリーンパターンとして使って下さいな。(阿部製 純愛スクリーン クラスタードット版)(阿部製 純愛スクリーン ディスパーストドット版)(純愛で世界を描ききれ

2002-08-17[n年前へ]

Nグラムモデルとクラスター分析を用いた漢文古典テキストの比較研究 「般若心経」の異訳の比較を例に 

 師 茂樹。あー、漱石の「文学論」をどこかの出版社に文庫本にして欲しい。

2003-02-02[n年前へ]

モーニング娘。でクラスタ分析 

グラフ理論で今日からあなたもプロデューサー

 昔からワタシには「手を抜くために色々とクダラナイことをする」という悪い癖がある。しかも、そのクダラナイことをした結果、必ずと言っていいほどに結局のところ苦労が増えまくるという結果になるのである。いわば、ドラえもんの「のび太」がいつもドラえもんの便利な道具に頼り、しかもその道具にしっぺ返しを必ず受けてしまうのを地でいくタイプなのであった。いつも、ワタシは手を抜くための道具を色々と作り、そして必ずそのしっぺ返しを食っていたのである。いわば、ドラえもんののび太とドラえもんを一人二役でマッチポンプのように演じ続けてきたのがワタシのこれまでの人生だったのである。
 

 最初に記憶に残っているそんなワタシの悪い癖は小学生の頃のことだ。生徒会か何かでワタシは募金の集計をしなければならなかったのである。1000人を遙かに超える生徒がせっせと集めた募金なのだから、硬貨にしても膨大な枚数だった。といっても、ほとんどは一円玉とか10円玉だったのだから、それほどの金額ではなかったのだろうけれど、とにかく膨大な枚数だったのである。

 そこで、ワタシは「ここは硬貨の重さを量って、金額を計算してみるのはどうだろうか?」と提案してみたのである。各硬貨の一枚当たりの重さは判っているわけだし、各硬貨に分けた上で全部の重さを量ってそれで金額に換算しちゃえば楽じゃないの、と提案してみたのである。ゼニ勘定に疲れていた周りの人々もその提案に喜び、「重さの誤差はどのくらいあると思う?」などとガヤガヤと計算しながら、みんなでせっせと硬貨を袋に入れて重さを計り始めたのである。

 そして、机の上に重さを量り終わった硬貨の袋が何袋も並ぶ頃、そんな小さな銀行泥棒たちが盗んだお金を袋に入れてる最中のような様子を小学校の先生が発見してしまったのである。そして、当然のごとく私たちは先生にこっぴどく怒られたのである。「みんなが苦労して集めたお金のありがたさが判っていない」と当然のおしかりを強く強~く受けたわけである。「算数の問題解いてるんじゃぁないんだから!」とこっぴどく怒られたわけなのである。結局、私たちは硬貨の袋から硬貨を取り出して一枚一枚数え直すことになったのであった。もちろん、他の人をそそのかしたワタシに対する周りの視線は非常にキツく、ワタシの疲れも倍増したのであった。最初から硬貨の数を数えた方がよっぽど楽だったのである。
 

 大人になってしまったワタシは今だにそんな「手を抜くための道具」を作り、そしてしっぺ返しを食らい続けている。三つ子の魂百まで、というわけなのであるが、今回は少し前にやってしまったそんな失敗を反省を含めて書いておこうと思う。
 

 ワタシは仕事の上で色々な調査をしなければならないことがある。例えば、他のライバル会社がどんなことをしているかとか、あるいは、もっと詳しくライバル会社の中の人たちがどんな風に繋がっているか、とかを調べなければならなかったりすることがある。色々な発表資料を読んだり膨大な数の特許を読んだりして、そこに登場してくる人たちの関係を調べて、色々な推定をしていかなければならない。そのためには、たくさんの書類を調べなければならないわけで結構これがシンドイ作業なのである。

 で、ワタシはこう考えたのだった。数百件もあるいは数千件も色々なものを読んで、その中に登場する人たちの関係を推定するなんてツライから、「たくさんの文書を勝手に読んで、勝手にその文章からライバル会社の中の人の関係を推定するソフト」を作っちゃえ~、と思ったのである。手を抜くためのクダラナイことのためには、苦労をいとわないワタシはそんなゴリゴリゴリゴリ真面目にそんなソフトを作ったのであった。「たくさんの文章の作者を調べ、その共著の関係から著者間の関係を調べる」というそんなソフトをせっせと作ってみたのである。そして作った後は、もちろんソフトのテストをしてみよう~、ということになった。

 じゃぁ、そのサンプルデータは何を使ってみようかなと考えている時に、頭の中のどこかでモーニング娘。の「ここにいるぜぇ!」が流れ始めたのである。そこで、ワタシはモーニング娘。を含むハロープロジェクトを他社に見立てて、これまでに発売されたCDに参加している頻度・関係性等から、ハロープロジェクト内の「それぞれの人の配置」を調べてみることにしたのであった。

 というわけで、つんく率いるハロープロジェクト関連で発売されているCDの枚数(なんと80枚以上だ!)に驚きながらも、CDに参加しているメンバーのデータをソフトに流し込んで、適当な各メンバーの関連性を示す数値を計算した上で、まずは各メンバーを近いものに分けるために、クラスタ分析してみた。ここで、解析ソフトは各CDに誰が参加しているかだけを知っていて、「モーニング娘。」とか「タンポポ」とかのグループが結成されていることは知らないのであるが、とにかくハロープロジェクトの中の各メンバーの「組織図」が判るわけだ。(ちなみに、ここでは似通ったものを樹形図(似通った度合いを示すグラフ、会社で言えば組織図みたいなもの)として表示するために、「Excelアドイン工房」のクラスタ分析アドインを使っている。)
 

 まずは、前半41作のCDから推定したハロープロジェクトの中の各メンバーの関係性を示したのが下のグラフである。
 

前半41作のCDから推定した各メンバーの関係性

 この樹形図グラフを眺めれば、(CDのカップリングから判断される)で誰と誰が結構近い関係にあるか、というようなことが判るハズである。といっても、このグラフでは色々なメンバーが参加したアルバムもあるいは一つのグループだけが歌うシングルも同じ重みで計算していたりするので、モーニング娘。あたりのファンの感覚からは大きくずれるかもしれないけれど、とにかくこんな「組織図」が計算されるのである。

 上の前半41作から計算した樹形図の方は結構シンプルなものなのだけれど、次に示す後半41作のCDから推定した後半41作のCDから推定した各メンバーの関係性の方はもう少し複雑だ。組織的にライバル会社ハロープロジェクトは前半より複雑になってきているのである。
 

後半41作のCDから推定した各メンバーの関係性

 こんな感じで、他社(ここではハロープロジェクトをそれに見立てたが)の発表資料(特許とか製品報告とか)からこんな各メンバーの組織図を示す解析ソフトを作ってみたわけなのだけれど、これではどうも不十分なのである。どうしてかといえば、各メンバーの結びつきがこの樹形図ではどうしても判りにくいのである。こんな風に各メンバーが一次元に並んでいる図ではどうも今ひとつ判らないことも多いのである。そこで、ワタシはさらに「各メンバーの結びつきを示す二次元グラフ」を出力することにしたのである。誰と誰がどのくらい近い関係にあるかなどを判りやすく表示させてみたのだった。そんなサンプルを少ないデータで表示させてみたのが下のグラフだ。モーニング娘。のメンバーの関係が判りやすい?グラフになっているのが判ると思う。
 

各メンバーの結びつきを示す二次元配置グラフ
alt="Meian Java" Your browser is completely ignoring the <APPLET> tag!

 このグラフ上で各メンバーを動かせば、「飯田をこっちへ持っていけばどうなる?あー、安部がそっちへ行っちゃったよー。どうするー?」というような具合で、各メンバーの配置やプロジェクトのメンバー編成などを実験することができるのである。グラフ理論で今日からあなたもプロデューサーなのである。グラフぐりぐりで、今日からあなたもつんくなのである。グラフ配置で誰でもつんくの気持ちになれるのである。
 

 という感じで、ソフトのテスト(になっていたのだろうか?)を終えたワタシはライバル会社の組織図を作ったのである。で、それを使いながら「この人たちはきっとこんな感じの組織になっているんですよー。そして、こんな感じでその組織は変化していったんですよー」なんて報告をしたのである。すると「おぉー、これは結構使えるかもー、なかなかスゴイぞー」となかなかに良い反応だったのである。

 そこで、さらにワタシは調子に乗って「ライバル会社の各メンバーの結びつきを示す二次元配置グラフ」の方で「この人をこっちに近づけるとこの人がこっちへー、これがライバル会社の人間関係なんですよー、ほらほら~」と見せたりすると、もうこれが「おぉぅ…? …これは何て言ったら良いのかなぁ…?スゴイ…んだけどなぁ……」と逆効果どころじゃなくもう引きまくりだったのである。そして、引いてしまった引き潮をもうどうにもすることもできないままに、結局そのグラフはお蔵入りしてしまったのであった。結局のところ当たり前のようにワタシはたくさんの書類をせっせと読まなければならなくなったのである。いつものように、手を抜くために色々とクダラナイことをして、結局のところ作業量は全然減らなかったのである。昔の小さな銀行泥棒の根性は全然直っていなかったのである。のび太とドラえもんの一人二役マッチポンプ人生はまだまだ終えられそうにないのが、ちょっと哀しい今日この頃、なのである。

モーニング娘。でクラスタ分析 

 グラフ理論で今日からあなたもプロデューサーです。実際のところ、自分の勤務先のデータを対象にしてやると結構強力でした。が、お蔵入りです。念のために書いておきますが、ほんとのところ仕事用に作ったモノではありません。そういう無駄なことをするのが好きなのです。ただそれだけ。



■Powered by yagm.net