「Apache Spark」の版間の差分
提供: FreeBSD入門
(ページの作成:「Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Spark...」) |
(相違点なし)
|
2015年3月18日 (水) 22:16時点における版
Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Sparkでは、ウィンドウ集計(Time-Window Operation)によりリアルタイム集計が可能です。
読み方
- Apache Spark
- あぱっち すぱーく
概要
Apache Spark は、インメモリの Hadoop MapReduce よりも 100倍高速で、ディスクでは10倍高速です。 Java, Scala, Python から簡単に利用できます。Pythonから利用する場合には、py27-spark が使用できます。 Spark SQL, 機械学習のためのMLlib, GraphX, Spark Streaming などのハイレベルなツールが利用できます。 Spark は、スタンドアローン、もしくは、クラウドの Hadoop, Mesos で実行できます。HDFS, Cassandra, HBase, S3 など様々なデータソースにアクセスできます。
ウィンドウ集計とは?
ウィンドウ集計は、「直近の一定時間の集計」を実現します。
インストール
pkgコマンドでインストールする場合
sudo pkg install apache-spark
apache-sparkの依存関係は、以下の通りです。
- hadoop2
- ssid
- snappy
設定
使い方
spark-shell
Pythonからの利用
py27-spark
pkgコマンドでインストールする場合
sudo pkg install py27-spark