jdk: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html から拾ってきてインストール（8u72 (1.8.0_72)）
spark: http://spark.apache.org/downloads.html からダウンロードして、適当なところに展開（spark-1.6.0-bin-without-hadoop.tgz）。
hadoop: https://hadoop.apache.org/releases.html からダウンロードして、適当なところに展開（hadoop-2.7.1.tar.gz）。

環境変数

## Hadoop
export PATH=$HOME/data/hadoop-2.7.1/bin:${PATH}
export JAVA_HOME=`/usr/libexec/java_home`

## Spark
export PATH=$HOME/data/spark-1.6.0-bin-without-hadoop/bin:${PATH}
export SPARK_DIST_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=$HOME/data/hadoop-2.7.1/etc/hadoop

osxでJAVA_HOMEを適切に設定するには、/usr/libexec/java_homeを用いると簡便で良い。うっとおしいので、spark-1.6.0-bin-without-hadoop/conf/log4j.propertiesを作成し、 log4j.rootCategory=WARN, consoleとしておく。

osxの場合、普通に実行すると snappy が云々という例外投げられて死ぬ。これは

Sparkは通信の為にデータを圧縮する
幾つかのコーデックが使えるがデフォルトがsnappy
osxのjava環境にはこれがない（pure javaではなくnative libraryが必要）

pyspark --driver-java-options -Dspark.io.compression.codec=lzfとするとエラーとならない

env PYSPARK_PYTHON=ipython-2.7 pyspark --driver-java-options -Dspark.io.compression.codec=lzf --master 'local[*]'として、iPython-2.7 をフロントエンドに、pythonから4並列でデータ処理ができた。

22:57:27 - その他雑記 - permalink

sparkが面白い

話題になってから半年遅れくらいだが、やっと時間が取れて試してみた。

python のフロントエンドがあるわけだが、これをむしろ spark のフロントエンドではなく python に対して spark の RDD が追加されたものと考えると大変使いやすくてよい。

もともと python で分散処理させようと思ったら multiprocssing あたりで明示的に書いてやらないとだめだったところが、見かけ上一つのオブジェクトである RDD に処理を割り当てて実行すれば、勝手に裏で分散処理される。
しかもノード間でも分散できる、と考えると python で上手くできてなかったところをきれいに埋めてるように見える。

R も分散処理苦手だった気がするけど、 python + RDD でデータ解析環境とすると今時点では最強なんじゃないだろうか？

hadoopのクラスライブラリは必要だが、hadoop自体は動いている必要はない
yarnに投げなくても、sshが通れば自前でクラスタ構築できる（standalone mode）
1ノードでも、コアの数で分散処理ができる
iPython とも連携できる

22:36:30 - その他雑記 - permalink

2015年12月23日 (Wed)

gfarm ログ

gfarm をガリガリに使うと、 syslog が gfarm のログで埋まってどうしようもなくなるので、ログレベルを変更。
デフォルトでこんなに何もかもログ出力しないでいいと思うけどね。

/etc/gfmd.conf で

log_level warning

hadoop もログうるさすぎる系だよなぁ…。あっちもいずれどうにかしないと

14:11:49 - ファイルサーバ - permalink

2015年12月17日 (Thu)

2T と 3T のディスクにまたがって、2.7T の logical volume があったんだが、用途が gfarm のストレージだったおかげで、 gfrep で他のノードに追っ払えて、 30G くらいになったところで xfsdump して、 unmount して、その他の lovical volume も pvmove で動かせて、すかさず fdisk してパーティション切れた（2T のディスクの方）。

昔、 2T に 2T 追加した時にパーティションきらなかった方で、切ってあった方が怪しくなった時に 3T なんかつけたらそっちから起動できなくて、どうしてもパーティション切り直さなきゃならなかったのがやっと何とかなった。しかも、リモートからオンラインで。ああ苦しいお手玉だった。

ディスクに余裕があると、リカバリのために一旦バックアップとか出来て助かる。学生の頃はそんなリソースなかったから、何を諦めるとかそんなのばっかだった気がする。

最後に新しい root を mount しておいて、 chroot して grub-install 。成功。素晴らしい（rebootはまだ）。

23:06:16 - その他雑記 - permalink

Newer articles:

26.02.2017

スマートロック

20.02.2017

写真パネル

03.02.2017

13.12.2016

引っ越し準備（続）

Older articles:

15.12.2015

gfrep

13.12.2015

サーバ放置してたら酷い目にあった話

08.11.2015

昇仙峡

03.11.2015

雑事

07.10.2015

小旅行

Navigation

Homepage

in other site

No items available

My Links

Search

Hot topics

BLOG:CMS 4.2.1 08.01.08 00:40

Latest comments

kuroyagi: This is a "parent" comment. Two comments were inspired by it (comment 2 and comment 3). You can see this...
kuroyagi: [1] I agree with the comment above....
kuroyagi: [1] I disagree with the comment above....
kuroyagi: you are both [2] and [3] way off-topic, here is nothing to agree or disagree about!! PS: try...

夜行録 - 酔歩.net

2016年12月12日 (Mon)

引っ越し準備中

2016年11月10日 (Thu)

退職しました

2016年07月04日 (Mon)

今年の紫陽花

2016年05月17日 (Tue)

今年の桜

2016年03月30日 (Wed)

桜

2016年02月02日 (Tue)

Sparkで全要素対の距離計算

2016年01月31日 (Sun)

osx で spark を動かす

sparkが面白い

2015年12月23日 (Wed)

gfarm ログ

2015年12月17日 (Thu)

パーティションお手玉

Newer articles:

Older articles:

Navigation

in other site

My Links

Search

Categories

Hot topics

Latest comments

Latest articles

Most karma

Most viewed

Style It!