kiyokaのブログアーカイブ

Archive of old blog posts

平仮名フレーズ辞書の入れかえ成功

Wikipedia日本語版のテキストデータを使って平仮名フレーズを作った。 これまで使っていた日本語ウェブコーパス 2010は廃止した。

結果、先日のエントリ「2013-03-16Sekka*辞書 平仮名フレーズ辞書を入れかえたい」で書いたように口語体の表現が少なくなり、固めの文章が書きやすくなった。 さらに、もう一つメリットがあって、辞書のライセンスがわかりやすくなった。 WikipediaはGFDLなので、はれて[Sekka]の辞書は全て次のオープンな素材から生成された辞書となった。

  • 平仮名フレーズ1 = Wikipedia GPDL。

  • 平仮名フレーズ2 = IPADic BSDライセンスに近い? 但しDeibanでは non-freeに分類されているらしい。

  • 日本語と片仮名 = SKKの辞書 GPL2。

というわけで、前よりもDebianなどのディストリビューションに入れやすいものになった。 一週間くらい使ってみて、Sekka 1.3.0と一緒に公開する予定。