平仮名フレーズ辞書を入れかえたい
日々使っているとSekkaの平仮名フレーズ辞書に不満が出てくる。 あまりに、口語体の表現が多く含まれているので、固めの文章を書いているときにも、口語体の表現が出て、うっかり確定してしまう。 それを直すのがめんどくさい。 なんとかならんのか…というのが発端。 たとえば、「…かもな」 みたいなフレーズがひょっこり出てきたりする。
例えば、Sekka 1.2.1で「だったのかも」と打ちたくて「dattanokamo」Ctrl-Jと入力すると、「だったのかもな」が出てくる。 友達同士で使うような最後の「ね」とか「な」とかのフレーズは辞書に入っていて欲しく無い。 もし入れるなら「ね」とか「な」が無い「だったのかも」が一緒に入っているべき。そうすれば、「だったのかも」が第一候補になる。
ただ、WebコーパスではWebのコンテンツを収集しているだけなので、それらが全てセットになっていることを保証することはできない。どれが含まれてどれが含まれないかは確率になる。 ということは、そのような口語体の表現を含まないコーパスである程度分量があるものが必要となる。
2013年の今日ならそのような n-gram コーパスはあるんじゃないか。または、簡単に作れるんじゃなか。例えばウィキペディア日本語版とか。 というわけで、久しぶりに大規模データマイニングをしてみようかなと思う。