一方で、詰めても詰めても終わらない本とCDの山。これ全部持っていかないとダメなのか？
というか、遥か昔買って以来読んでいないまま引っ越しのたびに運んでいる本ってなんのために運んでいるんだ？いつの日か読むのか？仕事を離れてのんびり2ヶ月くらい好きなことだけやって暮らし日々でも来たら読むのか（それって今なんじゃ…

食器もなあ…、いつの間にか増えて使わないものがそのまま奥に沈んでいってて、こういうのも意識的に捨てないとだなぁ

00:33:40 - その他雑記 - permalink

2016年12月12日 (Mon)

引っ越し準備中

数えてみると、10年ぶり7度目らしい

しかし、詰めても詰めても終わらない。この部屋だけで何箱使うんだ？
とりあえず本だけとかで一箱にならないよう上半分には違うものを詰めているんだが、それでも自分じゃ持ち上がるか不安

なお、前回引っ越し時の空箱だの梱包材の残りだのが大量に発掘された…。今回はさっさと捨てよう
しかしその前回の箱を活用しても、箱足りなくなるんじゃないか疑惑。まあ、積み替えなしだからトラックに放り込みさえできればあとはなんとかなりそう

01:11:16 - その他雑記 - permalink

2016年11月10日 (Thu)

退職しました

ここ1、2年、あまりにも会社にやることがなかったのと、会社の進路修正が自分とマッチしてない感じがして転職することにしました。

まあ、一度やって見たかった、というのも大きいのですが、やはり会社辞める時は理由は一つじゃないよね

有給が有り余っているので、これから年内は遊んで暮らす日々です。

次の勤務先はアキバ。通勤時間は短くしよう。

23:44:00 - その他雑記 - permalink

2016年02月02日 (Tue)

2016年01月31日 (Sun)

osx で spark を動かす

必要なもの

jdk: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html から拾ってきてインストール（8u72 (1.8.0_72)）
spark: http://spark.apache.org/downloads.html からダウンロードして、適当なところに展開（spark-1.6.0-bin-without-hadoop.tgz）。
hadoop: https://hadoop.apache.org/releases.html からダウンロードして、適当なところに展開（hadoop-2.7.1.tar.gz）。

環境変数

## Hadoop
export PATH=$HOME/data/hadoop-2.7.1/bin:${PATH}
export JAVA_HOME=`/usr/libexec/java_home`

## Spark
export PATH=$HOME/data/spark-1.6.0-bin-without-hadoop/bin:${PATH}
export SPARK_DIST_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=$HOME/data/hadoop-2.7.1/etc/hadoop

osxでJAVA_HOMEを適切に設定するには、/usr/libexec/java_homeを用いると簡便で良い。うっとおしいので、spark-1.6.0-bin-without-hadoop/conf/log4j.propertiesを作成し、 log4j.rootCategory=WARN, consoleとしておく。

osxの場合、普通に実行すると snappy が云々という例外投げられて死ぬ。これは

Sparkは通信の為にデータを圧縮する
幾つかのコーデックが使えるがデフォルトがsnappy
osxのjava環境にはこれがない（pure javaではなくnative libraryが必要）

pyspark --driver-java-options -Dspark.io.compression.codec=lzfとするとエラーとならない

env PYSPARK_PYTHON=ipython-2.7 pyspark --driver-java-options -Dspark.io.compression.codec=lzf --master 'local[*]'として、iPython-2.7 をフロントエンドに、pythonから4並列でデータ処理ができた。

22:57:27 - その他雑記 - permalink

sparkが面白い

話題になってから半年遅れくらいだが、やっと時間が取れて試してみた。

python のフロントエンドがあるわけだが、これをむしろ spark のフロントエンドではなく python に対して spark の RDD が追加されたものと考えると大変使いやすくてよい。

もともと python で分散処理させようと思ったら multiprocssing あたりで明示的に書いてやらないとだめだったところが、見かけ上一つのオブジェクトである RDD に処理を割り当てて実行すれば、勝手に裏で分散処理される。
しかもノード間でも分散できる、と考えると python で上手くできてなかったところをきれいに埋めてるように見える。

R も分散処理苦手だった気がするけど、 python + RDD でデータ解析環境とすると今時点では最強なんじゃないだろうか？

hadoopのクラスライブラリは必要だが、hadoop自体は動いている必要はない
yarnに投げなくても、sshが通れば自前でクラスタ構築できる（standalone mode）
1ノードでも、コアの数で分散処理ができる
iPython とも連携できる

22:36:30 - その他雑記 - permalink

2015年12月17日 (Thu)

2T と 3T のディスクにまたがって、2.7T の logical volume があったんだが、用途が gfarm のストレージだったおかげで、 gfrep で他のノードに追っ払えて、 30G くらいになったところで xfsdump して、 unmount して、その他の lovical volume も pvmove で動かせて、すかさず fdisk してパーティション切れた（2T のディスクの方）。

昔、 2T に 2T 追加した時にパーティションきらなかった方で、切ってあった方が怪しくなった時に 3T なんかつけたらそっちから起動できなくて、どうしてもパーティション切り直さなきゃならなかったのがやっと何とかなった。しかも、リモートからオンラインで。ああ苦しいお手玉だった。

ディスクに余裕があると、リカバリのために一旦バックアップとか出来て助かる。学生の頃はそんなリソースなかったから、何を諦めるとかそんなのばっかだった気がする。

最後に新しい root を mount しておいて、 chroot して grub-install 。成功。素晴らしい（rebootはまだ）。

23:06:16 - その他雑記 - permalink