スポンサーリンク

このドキュメントの内容は、以下の通りです。

FreeBSDでHadoopを動かしてみました。

Hadoopは、GoogleのMapReduceの論文を元にJavaで実装されたオープンソースの分散処理のシステムです。
現在、作者は、Yahoo!Incにスカウトされて、Yahoo!で働いているそうです。Yahoo!IncのバックエンドのどこかでHadoopが利用されているとのことです。
Yahoo!Incだとログ解析や検索インデックスの作成なんかに使えそうです。

というわけで、FreeBSDでHadoopのサンプルプログラムを動かしてみます。

Hadoopに必要なソフトウェア

Hadoop を動かすのに必要なソフトウェア
  • JDK
  • bash

jdkをインストール

jdkをインストールします。
jdkをFreeBSDにインストールするのは、色々面倒で、sunから各種必要なファイルをダウンロードしてきて、 /usr/ports/distfiles/ に置く必要があります。
cd /usr/ports/java/diablo-jdk16/
sudo make install clean

bashをインストール

Hadoopのシェルスクリプトがbashを必要とするので、bashをインストールします。
cd /usr/ports/shells/bash
sudo make install clean

hadoopのダウンロード

hadoopをダウンロードする。
下記サイトからHadoopをダウンロードしてください。
http://hadoop.apache.org/core/releases.html#Download

{version} は任意のバージョンです。
ダウンロードしたら、展開して、そのディレクトリに入ります。
tar zxfp hadoop-{version}.tar.gz
cd hadoo-{version}

hadoopの設定

hadoopの設定をします。

vi conf/hadoop-env.sh

JAVA_HOME の環境変数をセットします。

export JAVA_HOME=/usr/local/diablo-jdk1.6.0/

conf/hadoop-site.xml を設定します。
conf/hadoop-site.xml がない場合は、 conf/hadoop-default.xml をコピーして conf/hadoop-site.xml を作ります。
hadoop-0.19.0 の場合は、 hadoop-site.xml が最初からあります。

ポート番号は、使えるポート番号を適当に入れて問題ありません。
hadoop.tmp.dir は、適当に使えるテンポラリディレクトリを指定します。

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>
  <name>hadoop.tmp.dir</name>
  <value>/tmp/hadoop-0.19.0</value>
</property>

<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:54310</value>
</property>

<property>
  <name>mapred.job.tracker</name>
  <value>localhost:54311</value>
</property>

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
</configuration>

フォーマットします。

./bin/hadoop namenode -format


起動します。

./bin/start-all.sh


jpsコマンドでプロセスの状態を確認します。

%jps
45339 SecondaryNameNode
45221 NameNode
45447 TaskTracker
45279 DataNode
45383 JobTracker
48204 Jps

終了します。

./bin/stop-all.sh


サンプルプログラムを動かす


サンプルプログラムのワードカウントを実行してみます。

テスト用ディレクトリを作成します。
mkdir $HOME/inputs

サンプルファイルを作成します。
cat > $HOME/inputs/file1
hoge hoge hoge meta meta
C-d

Hadoop FSにファイルを転送します。
./bin/hadoop dfs -copyFromLocal ~/inputs inputs

ファイルの確認
./bin/hadoop dfs -ls
Found 1 items
drwxr-xr-x   - kaworu supergroup          0 2009-01-01 00:37 /user/kaworu/inputs
./bin/hadoop dfs -ls inputs
Found 1 items
-rw-r--r--   1 kaworu supergroup         25 2009-01-01 00:37 /user/kaworu/inputs/file1

./bin/hadoop jar hadoop-0.19.0-examples.jar wordcount inputs outputs
09/01/01 00:40:27 INFO mapred.FileInputFormat: Total input paths to process : 1
09/01/01 00:40:27 INFO mapred.JobClient: Running job: job_200812271944_0002
09/01/01 00:40:28 INFO mapred.JobClient:  map 0% reduce 0%
09/01/01 00:40:32 INFO mapred.JobClient:  map 100% reduce 0%
09/01/01 00:40:36 INFO mapred.JobClient:  map 100% reduce 100%
09/01/01 00:40:37 INFO mapred.JobClient: Job complete: job_200812271944_0002
09/01/01 00:40:37 INFO mapred.JobClient: Counters: 16
09/01/01 00:40:37 INFO mapred.JobClient:   File Systems
09/01/01 00:40:37 INFO mapred.JobClient:     HDFS bytes read=39
09/01/01 00:40:37 INFO mapred.JobClient:     HDFS bytes written=14
09/01/01 00:40:37 INFO mapred.JobClient:     Local bytes read=28
09/01/01 00:40:37 INFO mapred.JobClient:     Local bytes written=118
09/01/01 00:40:37 INFO mapred.JobClient:   Job Counters
09/01/01 00:40:37 INFO mapred.JobClient:     Launched reduce tasks=1
09/01/01 00:40:37 INFO mapred.JobClient:     Launched map tasks=2
09/01/01 00:40:37 INFO mapred.JobClient:     Data-local map tasks=2
09/01/01 00:40:37 INFO mapred.JobClient:   Map-Reduce Framework
09/01/01 00:40:37 INFO mapred.JobClient:     Reduce input groups=2
09/01/01 00:40:37 INFO mapred.JobClient:     Combine output records=2
09/01/01 00:40:37 INFO mapred.JobClient:     Map input records=1
09/01/01 00:40:37 INFO mapred.JobClient:     Reduce output records=2
09/01/01 00:40:37 INFO mapred.JobClient:     Map output bytes=45
09/01/01 00:40:37 INFO mapred.JobClient:     Map input bytes=25
09/01/01 00:40:37 INFO mapred.JobClient:     Combine input records=5
09/01/01 00:40:37 INFO mapred.JobClient:     Map output records=5
09/01/01 00:40:37 INFO mapred.JobClient:     Reduce input records=2

作成されたファイルの確認。
./bin/hadoop dfs -ls
Found 2 items
drwxr-xr-x   - kaworu supergroup          0 2009-01-01 00:37 /user/kaworu/inputs
drwxr-xr-x   - kaworu supergroup          0 2009-01-01 00:40 /user/kaworu/outputs

%./bin/hadoop dfs -ls outputs
Found 2 items
drwxr-xr-x   - kaworu supergroup          0 2009-01-01 00:40 /user/kaworu/outputs/_logs
-rw-r--r--   1 kaworu supergroup         14 2009-01-01 00:40 /user/kaworu/outputs/part-00000

./bin/hadoop dfs -cat outputs/part-00000
hoge    3
meta    2

outputsディレクトリに結果のファイル part-0000 ができました。
この中に、ワードカウントの実行結果が格納されています。
jobの割り当てなどのオーバーヘッドがあるので、この程度のサンプルの場合だと、ぜんぜん、Hadoopを使うメリットはありません。
もっと大量のデータをさばくのには、有効なのでしょうが。

Hadoop 関連書籍




Hadoop関連をもっと探す。
Hadoop
参照しているページ (サイト内): [2009-06-27-1] [2009-05-06-1] [2009-05-05-1] [2009-04-16-1] [2009-04-15-2]

スポンサーリンク
スポンサーリンク
 
いつもシェア、ありがとうございます!


もっと情報を探しませんか?

関連記事

最近の記事

人気のページ

スポンサーリンク
 

過去ログ

2020 : 01 02 03 04 05 06 07 08 09 10 11 12
2019 : 01 02 03 04 05 06 07 08 09 10 11 12
2018 : 01 02 03 04 05 06 07 08 09 10 11 12
2017 : 01 02 03 04 05 06 07 08 09 10 11 12
2016 : 01 02 03 04 05 06 07 08 09 10 11 12
2015 : 01 02 03 04 05 06 07 08 09 10 11 12
2014 : 01 02 03 04 05 06 07 08 09 10 11 12
2013 : 01 02 03 04 05 06 07 08 09 10 11 12
2012 : 01 02 03 04 05 06 07 08 09 10 11 12
2011 : 01 02 03 04 05 06 07 08 09 10 11 12
2010 : 01 02 03 04 05 06 07 08 09 10 11 12
2009 : 01 02 03 04 05 06 07 08 09 10 11 12
2008 : 01 02 03 04 05 06 07 08 09 10 11 12
2007 : 01 02 03 04 05 06 07 08 09 10 11 12
2006 : 01 02 03 04 05 06 07 08 09 10 11 12
2005 : 01 02 03 04 05 06 07 08 09 10 11 12
2004 : 01 02 03 04 05 06 07 08 09 10 11 12
2003 : 01 02 03 04 05 06 07 08 09 10 11 12

サイト

Vim入門

C言語入門

C++入門

JavaScript/Node.js入門

Python入門

FreeBSD入門

Ubuntu入門

セキュリティ入門

パソコン自作入門

ブログ

トップ


プライバシーポリシー