夜行録 - 酔歩.net

日暮れて道遠しさらに夜道を行くもって夜行録と名付く

sparkが面白い

話題になってから半年遅れくらいだが、やっと時間が取れて試してみた。

python のフロントエンドがあるわけだが、これをむしろ spark のフロントエンドではなく python に対して spark の RDD が追加されたものと考えると大変使いやすくてよい。

もともと python で分散処理させようと思ったら multiprocssing あたりで明示的に書いてやらないとだめだったところが、見かけ上一つのオブジェクトである RDD に処理を割り当てて実行すれば、勝手に裏で分散処理される。
しかもノード間でも分散できる、と考えると python で上手くできてなかったところをきれいに埋めてるように見える。

R も分散処理苦手だった気がするけど、 python + RDD でデータ解析環境とすると今時点では最強なんじゃないだろうか？

hadoopのクラスライブラリは必要だが、hadoop自体は動いている必要はない
yarnに投げなくても、sshが通れば自前でクラスタ構築できる（standalone mode）
1ノードでも、コアの数で分散処理ができる
iPython とも連携できる

2016年01月31日 (Sun) - 22:36:30 - その他雑記 - 4544x - permalink
Karma points: 1. Do you like this article? [yes/no]

Use this Trackback URL for ping (right mouse click and copy URL).
You can [print] this article, DISALLOWED (MailToAFriend) it, or export a [PDF].

夜行録 - 酔歩.net

sparkが面白い

Navigation

Categories

Search

Style It!