スポンサーリンク

ApacheのアクセスログのリファラからGoogleの検索キーワードを
抜き出す方法について。

get_keyword.pl
#!/usr/local/bin/perl
use strict;
use warnings;

sub url_decode($) {
  my $str = shift;
  $str =~ tr/+/ /;
  $str =~ s/%([0-9A-Fa-f][0-9A-Fa-f])/pack('H2', $1)/eg;
  return $str;
}

while(<>){
	if(m,http://www.google.co[a-z\.]+/search\?([^"]+),){
		my $s = url_decode (${1});
		my ($m) = ($s =~ m|q=([^&]+)|);
		print "${m}\n";
	}
}

実行方法
cat //var/log/httpd-access.log | perl get_keyword.pl

重複行をまとめる
cat //var/log/httpd-access.log | perl get_keyword.pl | sort -u

同じキーワードをカウントする方法
cat //var/log/httpd-access.log | perl get_keyword.pl | uniq -c 

文字化けするなら
nkf で適切なエンコードにしてください。
eucなら-eオプションを使う。
cat //var/log/httpd-access.log | perl get_keyword.pl | nkf -e

スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー