Apache Spark

Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Sparkでは、ウィンドウ集計(Time-Window Operation)によりリアルタイム集計が可能です。

読み方

Apache Spark: あぱっちすぱーく

概要

Apache Spark は、インメモリの Hadoop MapReduce よりも 100倍高速で、ディスクでは10倍高速です。 Java, Scala, Python から簡単に利用できます。Pythonから利用する場合には、py27-spark が使用できます。 Spark SQL, 機械学習のためのMLlib, GraphX, Spark Streaming などのハイレベルなツールが利用できます。 Spark は、スタンドアローン、もしくは、クラウドの Hadoop, Mesos で実行できます。HDFS, Cassandra, HBase, S3 など様々なデータソースにアクセスできます。

ウィンドウ集計とは？

ウィンドウ集計は、「直近の一定時間の集計」を実現します。

インストール

pkgコマンドでインストールする場合

sudo pkg install apache-spark

apache-sparkの依存関係は、以下の通りです。

hadoop2
ssid
snappy

設定

使い方

spark-shell

Pythonからの利用

py27-spark

pkgコマンドでインストールする場合

sudo pkg install py27-spark

Apache Spark

目次

概要

ウィンドウ集計とは？

インストール

設定

使い方

Pythonからの利用

py27-spark

関連項目

案内メニュー

個人用ツール

名前空間

変種

表示

その他

検索

案内

ツール

SponsoredLink