「Apache Spark」の版間の差分

提供: FreeBSD入門
移動: 案内検索
(ページの作成:「Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Spark...」)
(相違点なし)

2015年3月18日 (水) 22:16時点における版

Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Sparkでは、ウィンドウ集計(Time-Window Operation)によりリアルタイム集計が可能です。

読み方

Apache Spark
あぱっち すぱーく

概要

Apache Spark は、インメモリの Hadoop MapReduce よりも 100倍高速で、ディスクでは10倍高速です。 Java, Scala, Python から簡単に利用できます。Pythonから利用する場合には、py27-spark が使用できます。 Spark SQL, 機械学習のためのMLlib, GraphX, Spark Streaming などのハイレベルなツールが利用できます。 Spark は、スタンドアローン、もしくは、クラウドの Hadoop, Mesos で実行できます。HDFS, Cassandra, HBase, S3 など様々なデータソースにアクセスできます。

ウィンドウ集計とは?

ウィンドウ集計は、「直近の一定時間の集計」を実現します。

インストール

pkgコマンドでインストールする場合

sudo pkg install apache-spark

apache-sparkの依存関係は、以下の通りです。

  • hadoop2
  • ssid
  • snappy

設定

 

使い方

spark-shell

Pythonからの利用

py27-spark

pkgコマンドでインストールする場合

sudo pkg install py27-spark

関連項目