スポンサーリンク

このドキュメントの内容は、以下の通りです。

はじめに

データに Unicode な文字が紛れ込んでいて、かつ、そのようなデータが不要な場合に削除をしたいときに簡単にフィルタできる方法を考えました。コマンドラインで簡単に使えるワンライナーです。今回はPerlを活用しました。

パイプ等でフィルタする場合

ファイルからデータを読み込み、標準出力に結果が出ます。
perl -pe 's/[^[:ascii:]]*//g' file

パイプでつなぐ例は以下の通りです。
cat file | perl -pe 's/[^[:ascii:]]*//g'

ファイルを変更する

バックアップファイルを作って、上書きする場合は以下の通りです。
file.bak に元のファイルが保存されます。
file はフィルタされたデータが格納されます。
perl -i.bak -pe 's/[^[:ascii:]]*//g' file

バックアップファイルを作らず、 file を上書きします。
perl -i -pe 's/[^[:ascii:]]*//g' file

まとめ

Perlの正規表現の文字クラスを使うことで非ASCII文字を簡単に削除することができました。正規表現は非常にパワフルで便利です。

スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー