スポンサーリンク

このドキュメントの内容は、以下の通りです。

文字列が辞書と一致するか、などの処理をしたいときに、
文字列が漢字や片仮名、平仮名で構成していたりすると
読み方が同じ文字列であっても、同一のものと処理するのが面倒です。
たとえば、「猫」と「ねこ」、「ネコ」が同じものとして扱いたいときのことです。
そういうときに、文字列を全部平仮名にしてしまって、辞書も平仮名で用意しておけば、簡単にマッチングすることができます。

こういった処理には、いろいろな方法がありますが、今回は、FreeBSD/Unixで簡単に実現できる方法について紹介します。

kakasi


kakasiとは、漢字→かな(ローマ字)変換プログラムです。
kakasiは、漢字かなまじり分をひらがな分やローマ字分に変換することを目的として、作成されたプログラムと辞書の総称です。

FreeBSDにkakasiをインストールする


FreeBSDの場合、kakasi を ports からインストールできます。

インストール


cd /usr/ports/japanese/kakasi
sudo make install clean

portinstallコマンドでインストールする場合
sudo portinstall /usr/ports/japanese/kakasi

portmasterコマンドでインストールする場合
sudo portmaster /usr/ports/japanese/kakasi

参考サイト


実行方法


euc.txt は、平仮名、漢字、カナカナが混在した euc-jp エンコードのファイルです。
漢字とカタカナとひらがなのファイル。

漢字を平仮名、カタカナをひらがなに変換
kakasi -JH -KH < euc.txt

漢字を平仮名をひらがなに変換
kakasi -JH < euc.txt

カタカナをひらがなに変換
kakasi -KH < euc.txt

オプション


今回利用したオプションの意味は以下のとおりです。

オプション 意味
-JH 漢字を平仮名に変換
-KH 片仮名を平仮名に変換
参照しているページ (サイト内): [2011-01-13-1]

スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー