kakasiで漢字や片仮名を平仮名に変換する方法

このドキュメントの内容は、以下の通りです。

kakasi
FreeBSDにkakasiをインストールする
インストール
参考サイト
実行方法
オプション

文字列が辞書と一致するか、などの処理をしたいときに、
文字列が漢字や片仮名、平仮名で構成していたりすると
読み方が同じ文字列であっても、同一のものと処理するのが面倒です。
たとえば、「猫」と「ねこ」、「ネコ」が同じものとして扱いたいときのことです。
そういうときに、文字列を全部平仮名にしてしまって、辞書も平仮名で用意しておけば、簡単にマッチングすることができます。

こういった処理には、いろいろな方法がありますが、今回は、FreeBSD/Unixで簡単に実現できる方法について紹介します。

cd /usr/ports/japanese/kakasi
sudo make install clean

portinstallコマンドでインストールする場合

sudo portinstall /usr/ports/japanese/kakasi

portmasterコマンドでインストールする場合

sudo portmaster /usr/ports/japanese/kakasi

参考サイト

http://kakasi.namazu.org/

実行方法

euc.txt は、平仮名、漢字、カナカナが混在した euc-jp エンコードのファイルです。

漢字とカタカナとひらがなのファイル。

漢字を平仮名、カタカナをひらがなに変換

kakasi -JH -KH < euc.txt

漢字を平仮名をひらがなに変換

kakasi -JH < euc.txt

カタカナをひらがなに変換

kakasi -KH < euc.txt

オプション

今回利用したオプションの意味は以下のとおりです。

オプション	意味
-JH	漢字を平仮名に変換
-KH	片仮名を平仮名に変換

参照しているページ (サイト内): [2011-01-13-1]

いつもシェア、ありがとうございます！

もっと情報を探しませんか？

kakasi

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12