Blanktar

  1. top
  2. blog
  3. 2013
  4. 06

MeCabさんが記号を「サ変接続」と認識してしまう

追記

サ変接続の意味についてはで、サ変接続とは何なのか。を御覧ください。

MeCabに記号を食わせた時に

+       名詞,サ変接続,*,*,*,*,*
EOS

みたいになってしまう。

これは困る。凄く困る。 なんやねん、サ変接続て。「+する」とか言うんかい。

これじゃ困るので、対処。

まず、ipadicがある場所を探します。 MeCabのインストールディレクトリ内のdic/ipadicとかにある、かな?

で、そこにあるunk.defってファイルを開きます。unknown word。未知語の分類を定義してるらしい。

SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,*

って書いてある行を

SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*

に変更。

それが出来たら、あとはコンパイルして終了。

先ほど編集したipadicがあるディレクトリで

$ mecab-dict-index -f CSVファイルの文字コード -c 出力する辞書の文字コード

とすればおっけー。

ちなみに文字コード2つは省略可能なようです。

MeCabが起動してる時に編集しようとすると「permission denied」って言われるので注意ね。

ここまで無事できたら、

+       記号,一般,*,*,*,*,*
EOS

こんな感じで、出力が正しい感じになってるはずです。


参考: