OpenAFS のデータベース系サーバ (ka, pt, bu, vl のサービスを動かす方) を複数ホスト立ち上げると、そのうち1ホストで動いているサーバ群がデータベースのマスターサーバになる。 AFS では、このデータベースの同期を Ubik で行っていて、マスターサーバは Ubik コーディネータと呼ばれる。 IP address の最も小さなホストがコーディネータになる。
当方環境での問題は、 IP address の最も小さなデータベースサーバで bosserver を起動したときに、セルに他にデータベースサーバが動いていると exit code 15 で ka, bu, pt, vlサーバが終了してしまう、と言うもので、それだけならば大規模停電等の後の起動順で回避できるのだが、 bosserver の週1の再起動時に、自分が shutdown している間に他サーバがコーディネータになっていることを発見して再起動に失敗し bosserver 自体も終了する、という問題がある。
コーディネータの選挙をやり直すんじゃないのか? この駄目なホストの環境は MacOSX 10.3 + OpenAFS 1.2.11
つーので毎週手動で再起動していたが、 bos setrestart で never が選べるようなので、それで誤摩化すか…
以下はログの抜粋。 130.87.xx.xx がより小さな IP address を持っているが 130.87.yy.yy にコーディネータを奪われて再起動に失敗している。起動時は手動で xx.xx を起動した後 yy.yy を起動。その後日曜の 4:00 に yy.yy で bosserver の再起動が行われており、その後 xx.xx 自身の再起動は失敗(ログには残らない)
AuthLog
kerberos-iv/udp port=750 kerberos5/udp is unknown; check /etc/services. Using port=88 as default 4 Using server list from mylocal.cell cell database. Mon Aug 23 13:23:37 2004 Using level crypt for Ubik connections. Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:52 2004 Starting to process AuthServer requests Starting to listen for UDP packets start 5 min check lwp Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
PtLog
Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
VlLog
Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:51 2004 Starting AFS vlserver 4 (/Library/OpenAFS/Tools/root.server/usr/afs/bin/vlserver) Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: @(#) OpenAFS 1.2.10 built 2004-01-08 Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
BackupLog
08/23/2004 13:23:49 Waiting for quorum election 08/23/2004 13:24:54 Have established quorum 08/23/2004 13:24:54 Ready to process requests at Mon Aug 23 13:24:54 2004
[referer: [an error occurred while processing this directive]]