夜行録 - 酔歩.net

日暮れて道遠し さらに夜道を行く もって夜行録と名付く

2016年01月31日 (Sun)

osx で spark を動かす

必要なもの

jdk
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html から拾ってきてインストール(8u72 (1.8.0_72))
spark
http://spark.apache.org/downloads.html からダウンロードして、適当なところに展開(spark-1.6.0-bin-without-hadoop.tgz)。
hadoop
https://hadoop.apache.org/releases.html からダウンロードして、適当なところに展開(hadoop-2.7.1.tar.gz)。

環境変数

## Hadoop
export PATH=$HOME/data/hadoop-2.7.1/bin:${PATH}
export JAVA_HOME=`/usr/libexec/java_home`

## Spark
export PATH=$HOME/data/spark-1.6.0-bin-without-hadoop/bin:${PATH}
export SPARK_DIST_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=$HOME/data/hadoop-2.7.1/etc/hadoop

osxでJAVA_HOMEを適切に設定するには、/usr/libexec/java_homeを用いると簡便で良い。 うっとおしいので、spark-1.6.0-bin-without-hadoop/conf/log4j.propertiesを作成し、 log4j.rootCategory=WARN, consoleとしておく。

osxの場合、普通に実行すると snappy が云々という例外投げられて死ぬ。これは

  1. Sparkは通信の為にデータを圧縮する
  2. 幾つかのコーデックが使えるがデフォルトがsnappy
  3. osxのjava環境にはこれがない(pure javaではなくnative libraryが必要)

pyspark --driver-java-options -Dspark.io.compression.codec=lzfとするとエラーとならない

env PYSPARK_PYTHON=ipython-2.7 pyspark --driver-java-options -Dspark.io.compression.codec=lzf --master 'local[*]'として、iPython-2.7 をフロントエンドに、pythonから4並列でデータ処理ができた。

22:57:27 - その他雑記 - permalink

sparkが面白い

話題になってから半年遅れくらいだが、やっと時間が取れて試してみた。

python のフロントエンドがあるわけだが、これをむしろ spark のフロントエンドではなく python に対して spark の RDD が追加されたものと考えると大変使いやすくてよい。

もともと python で分散処理させようと思ったら multiprocssing あたりで明示的に書いてやらないとだめだったところが、 見かけ上一つのオブジェクトである RDD に処理を割り当てて実行すれば、勝手に裏で分散処理される。
しかもノード間でも分散できる、と考えると python で上手くできてなかったところをきれいに埋めてるように見える。

R も分散処理苦手だった気がするけど、 python + RDD でデータ解析環境とすると今時点では最強なんじゃないだろうか?

  1. hadoopのクラスライブラリは必要だが、hadoop自体は動いている必要はない
  2. yarnに投げなくても、sshが通れば自前でクラスタ構築できる(standalone mode)
  3. 1ノードでも、コアの数で分散処理ができる
  4. iPython とも連携できる
22:36:30 - その他雑記 - permalink

2015年12月17日 (Thu)

パーティションお手玉

2T と 3T のディスクにまたがって、2.7T の logical volume があったんだが、用途が gfarm のストレージだったおかげで、 gfrep で他のノードに追っ払えて、 30G くらいになったところで xfsdump して、 unmount して、その他の lovical volume も pvmove で動かせて、すかさず fdisk してパーティション切れた(2T のディスクの方)。

昔、 2T に 2T 追加した時にパーティションきらなかった方で、切ってあった方が怪しくなった時に 3T なんかつけたらそっちから起動できなくて、どうしてもパーティション切り直さなきゃならなかったのがやっと何とかなった。 しかも、リモートからオンラインで。ああ苦しいお手玉だった。

ディスクに余裕があると、リカバリのために一旦バックアップとか出来て助かる。 学生の頃はそんなリソースなかったから、何を諦めるとかそんなのばっかだった気がする。

最後に新しい root を mount しておいて、 chroot して grub-install 。成功。素晴らしい(rebootはまだ)。

23:06:16 - その他雑記 - permalink

2015年11月03日 (Tue)

雑事

新米が届いたので、元気よく1.5合炊いて、結局全部食べてしまうなど

ササニシキは炊きたてより、ちょっと冷めてぽそぽそっとなってる方が美味しいね

しかし、米が美味しい!と言って米ばかりばくばく食べてるのって、ドーナツ美味しいと言ってドーナツ食べまくってるのと大して変わらない気もする。

急に寒くなったので、寝具の準備をするなど

日当たり悪くなってきたら、急にひょろひょろ伸び出した多肉。植物は勝手に伸びるから困る。ずっとちっちゃいまんまでいいのに。

22:11:47 - その他雑記 - permalink

2015年10月07日 (Wed)

AWS EC2 GPUインスタンス

開発で使って遊んでいた EC2 の GPU インスタンスが、急に使えなくなった。

なにか変な操作した挙句、うっかり CUDA-7.0 の上に CUDA-7.5 入れてしまって、どうもドライバを変に上書きしてしまった模様。 なにせ nvidia-smi が kill されるとか、2回目はプロセスが刺さるとか、自分のコードでもデバイスチェックしに行って刺さるとかそのまま load av. が果てしなく上昇するとか全然使えない。

問題は、ここからどうやっても元に戻せなくなったこと。最後は新しいインスタンス作ってクリーンなところからインストールし直したけどどうしてもダメ。

というか、 CUDA のインストールを local repo 版でやったんだが、どうもそれが駄目で、

https://github.com/BVLC/caffe/wiki/Install-Caffe-on-EC2-from-scratch-(Ubuntu,-CUDA-7,-cuDNN)

に従って、 .run を手でインストールしたらこれはちゃんと動くようになった。納得いかん

最初に動いてた環境も local repo 版からのインストールだったはずなんだがなぁ。

半月ぐらい空費したが、なんとか開発続行できるようになり、判りにくいバグをなんとか半日かけて解析して、8月中に終わらせたかった開発はやっと1段落である。

00:13:40 - その他雑記 - permalink

2015年07月31日 (Fri)

機種変更

懸案だった機種変更にやっと踏み切った。
前機種はもう、メモリに対して動いてるアプリのメモリ要求が大きすぎて、タスクスイッチは遅いわレスポンスは遅いわタップは2、3回に1回無視されるわ酷いもんだった。

しかし小さい機種ないよね。一番小さくてもこの有様。重い。持ちにくい。

[read more]

15:13:20 - その他雑記 - permalink

2015年07月29日 (Wed)

伸びすぎ

アホほど伸びたヒポエステス。
小さな鉢がなかったので余っていたのに適当に植えたら一瞬でぴゅーーと伸びて、そのまま放置したらこの有様。

そうか、こいつは伸びたら即伐らんとダメか

流石にさっき斬った


[read more]

00:52:16 - その他雑記 - permalink

2015年07月14日 (Tue)

謎の多肉植物

ホームセンターで売っててなんとなく買ったタニクシヨクフ゛ツ

買った時はちっちゃかったのに…

[read more]

23:51:58 - その他雑記 - permalink

健康管理

機能はうっかり窓を閉めたまま寝てしまって、朝起きたら妙に気持ち悪くて、どうしたことだこれは。風邪か?熱でもあるのか?それとも…
と、慌ててこれ買ってきた(パッケージがだいぶ汚れかけてた売れ残り)。

そして今日は窓開けて寝てても、朝起きるなり麦茶ガブ飲み。
窓開けてると夜中結構寒いんだが、朝になって日が当たるとあっというまに室温が上がる…

昼間うちにいる間、窓全部開け放していると、風が結構涼しいんだが、外気が涼しいだけであってうちの中は結構よくないコンディションだったんじゃないかな


23:43:21 - その他雑記 - permalink

2015年06月19日 (Fri)

紫陽花

こっちは紫陽花の季節です

[read more]

17:44:55 - その他雑記 - permalink

Newer articles:

26.02.2017

13.12.2016

12.12.2016

10.11.2016

02.02.2016

Older articles:

19.06.2015

16.04.2015

08.03.2015

04.03.2015

19.01.2015