平仮名フレーズ辞書の入れかえ成功
Wikipedia日本語版のテキストデータを使って平仮名フレーズを作った。 これまで使っていた日本語ウェブコーパス 2010は廃止した。
結果、先日のエントリ「2013-03-16Sekka*辞書 平仮名フレーズ辞書を入れかえたい」で書いたように口語体の表現が少なくなり、固めの文章が書きやすくなった。 さらに、もう一つメリットがあって、辞書のライセンスがわかりやすくなった。 WikipediaはGFDLなので、はれて[Sekka]の辞書は全て次のオープンな素材から生成された辞書となった。
-
平仮名フレーズ1 = Wikipedia GPDL。
-
平仮名フレーズ2 = IPADic BSDライセンスに近い? 但しDeibanでは non-freeに分類されているらしい。
-
日本語と片仮名 = SKKの辞書 GPL2。
というわけで、前よりもDebianなどのディストリビューションに入れやすいものになった。 一週間くらい使ってみて、Sekka 1.3.0と一緒に公開する予定。