Apache Spark

提供: FreeBSD入門
2015年3月18日 (水) 22:16時点におけるDaemon (トーク | 投稿記録)による版 (ページの作成:「Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Spark...」)

(差分) ←前の版 | 最新版 (差分) | 次の版→ (差分)
移動: 案内検索
スポンサーリンク

Apache Spark とは、大規模なデータ処理のための高速な汎用エンジンです。Hadoopでは、リアルタイム処理ができませんが、Sparkでは、ウィンドウ集計(Time-Window Operation)によりリアルタイム集計が可能です。

読み方

Apache Spark
あぱっち すぱーく

概要

Apache Spark は、インメモリの Hadoop MapReduce よりも 100倍高速で、ディスクでは10倍高速です。 Java, Scala, Python から簡単に利用できます。Pythonから利用する場合には、py27-spark が使用できます。 Spark SQL, 機械学習のためのMLlib, GraphX, Spark Streaming などのハイレベルなツールが利用できます。 Spark は、スタンドアローン、もしくは、クラウドの Hadoop, Mesos で実行できます。HDFS, Cassandra, HBase, S3 など様々なデータソースにアクセスできます。

ウィンドウ集計とは?

ウィンドウ集計は、「直近の一定時間の集計」を実現します。

インストール

pkgコマンドでインストールする場合

sudo pkg install apache-spark

apache-sparkの依存関係は、以下の通りです。

  • hadoop2
  • ssid
  • snappy

設定

 

使い方

spark-shell

Pythonからの利用

py27-spark

pkgコマンドでインストールする場合

sudo pkg install py27-spark

関連項目




スポンサーリンク