平仮名フレーズ辞書を追加してみようかな(2)

2011年07月07日

昨日のエントリ「2011-07-06Sekka* 平仮名フレーズ辞書を追加してみようかな(1)」の続き。平仮名フレーズ辞書の作りかただが、再度矢田さんのウェブコーパスを調べてみた。日本語ウェブコーパス 2010から引用本コーパスの作成においては，様々なウェブサービス，ツール，コーパスを利用させていただきました．開発者・研究者の皆様に感謝いたします．

コーパスの作成・保存・配布には Amazon Web Services を利用しています．
ウェブ検索には Yahoo! JAPAN 検索 Web API を利用しています．
ウェブコーパスのシードには IPAdic を利用しています．
文字コードの変換には日本語用のパッチを適用した libiconv を利用しています．
Unicode の正規化には ICU を利用しています．
形態素解析には MeCab を利用しています．
コーパスの圧縮には XZ Utils を利用しています．
他にも様々なソフトウェアを利用しています．

なんか勘違いしていた。IPAdicとMeCabが使われている。うまくフィルタリングすれば有用なデータが取れることがわかってきた。

[Sekka]用に一番集めたいフレーズは、「なりました」「しました」などの文末に出てくる定型フレーズ。自分としては使用頻度が高く、かつミスタイプでグダグダになりやすい傾向がある。これは「なり」「まし」「た」などのような形態素を結合したものになるのだが、N-gramコーパスの 6-gramの </S> (文境界マーク) 付きの高頻度共起データから取れそう。まず、</S>を見つけて、その直前の平仮名だけで構成される形態素を結合すれば良いかな。例外として「と」「の」「て」「に」「お」「は」の形態素は捨てるべきかな？これは結果データを見てから決めよう。[Sekka]のユースケースから考えると付いている/付いていないの両方があったほうがいいのかも。

「6mg-0000.xzの抜粋」 . . % OFF となります </S> 1222 % OFF になります </S> 2189 . . “ 監督やりたい “ </S> 1800 “ 現象 “ である </S> 1319 . . % 減少している </S> 1973 % 減少しました </S> 1714 % 近く上がりました </S> 3594 . . % となっている </S> 27945 % となりました </S> 8012 % なんですか </S> 1184 % にすぎなかった </S> 1546 % にすぎません </S> 2356 % にとどまっている </S> 4109 % になっている </S> 2149 % になりました </S> 3459 % にもなります </S> 1126 % にも満たない </S> 1974 % に上っている </S> 1020

その次には「しかし」「もっとも」などの接続詞や副詞、や「こういう」などのような連体詞、その他使用頻度の高いフレーズが欲しい。それは 1-gramから単純に取るのでいいのか、2-gramくらいから抜き出したほうがいいのか… これも推測より実験かな。

なんとかあまり労力をかけずにデータを集めれそうだ。いい時代になったなあと思う反面、便利すぎて大規模データに触れるチャンスが… もっとデータの精度に拘れば、大規模データを自分で処理する必要が出るのだろう。うーん。このままHadoopなどを使って大規模データマイニングをやるのが先延ばしになりそう。

コメント by yoriyuki:
Unicodeの正規化にicuを使っているとのことですが、具体的にどういう正規化なのか分かりますか？

コメント by kiyoka:
残念ながら、どういう正規化が行われているかはわかりませんでした。ウェブコーパス作成におけるICUの利用目的も書いてありませんので、手がかりがありません。ウェブマイニングする場合の最低限の正規化が組み込まれているのでしょうか。

コメント by yoriyuki:
なるほど、どうもありがとうございました。

コメント by yoriyuki:
Unicodeの正規化にicuを使っているとのことですが、具体的にどういう正規化なのか分かりますか？