Login | Register For Free | Help
Search for: (Advanced)

Mailing List Archive: Linux-HA: Japanese

n+1$B9=@.$G%9%W%j%C(B$B%H%V%l%$%s>uBV$K$J$j2sI|$7$J$$(B

 

 

Linux-HA japanese RSS feed   Index | Next | Previous | View Threaded


wada.shinichiro at jp

Jan 16, 2012, 11:28 PM

Post #1 of 10 (642 views)
Permalink
n+1$B9=@.$G%9%W%j%C(B$B%H%V%l%$%s>uBV$K$J$j2sI|$7$J$$(B

$BOBED$H?=$7$^$9!#(B
$B$O$8$a$^$7$F!#(B

Corosync + Pacemaker + $B%"%W%j%1!<%7%g%s$G(B N + 1$B9=@.$r(B
$B:n@.$7$h$&$H$7$F$$$^$9!#(B
$B!t;CDjE*$K%"%W%j%1!<%7%g%s$O(B Apache $B$rMxMQ$7!"(BClone $B$rMQ$$$F(B
$B!t(B2 + 1$B9=@.$H$7$F$$$^$9!#(B

$BDL>o$N>uBV$G$O!"(B2 + 1$B9=@.$rLdBj$J$/9=C[$9$k$3$H$,(B
$B$G$-$?$N$G$9$,!"%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?:]$K!"(B
$B%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?%5!<%P$N(B Current DC $B$,(B
$B<+J,<+?H$H$J$j!"2sI|$7$J$$>uBV$H$J$C$F$7$^$$$^$9!#(B

$B$3$N$h$&$J>uBV$KH/@8$5$;$J$$J}K!!"$^$?$O!"(BCorosync $B$N(B restart $B$r(B
$B9T$o$:$K(B Current DC $B$rE}0l$9$kJ}K!$O$4$6$$$^$9$G$7$g$&$+!)(B

$B$J$*!"%$%s%?%U%'!<%9$N>iD92=$O9T$C$F$*$j$^$;$s!#(B

------- $B@5>o;~(B $B$3$3$+$i(B ------------------
============
Last updated: Tue Jan 17 15:27:22 2012
Stack: openais
Current DC: it09 - partition with quorum
Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
3 Nodes configured, 3 expected votes
3 Resources configured.
============

Online: [ it08 it09 it10 ]

Clone Set: clnApache
Started: [ it08 it09 ]
Clone Set: clnDiskd
Started: [ it08 it09 it10 ]
Clone Set: clnPing
Started: [ it08 it09 it10 ]
------- $B@5>o;~(B $B$3$3$^$G(B ------------------

------- $B0[>o;~(B $B$3$3$+$i(B ------------------
============
Last updated: Tue Jan 17 15:28:05 2012
Stack: openais
Current DC: it09 - partition with quorum
Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
3 Nodes configured, 3 expected votes
3 Resources configured.
============

Online: [ it08 it09 ]
OFFLINE: [ it10 ]

Clone Set: clnApache
Started: [ it08 it09 ]
Clone Set: clnDiskd
Started: [ it08 it09 ]
Stopped: [ prmDiskd:2 ]
Clone Set: clnPing
Started: [ it08 it09 ]
Stopped: [ prmPing:2 ]
------------------------------------------
============
Last updated: Tue Jan 17 16:18:28 2012
Stack: openais
Current DC: it10 - partition WITHOUT quorum
Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
3 Nodes configured, 3 expected votes
3 Resources configured.
============

Online: [ it10 ]
OFFLINE: [ it08 it09 ]

Clone Set: clnApache
Started: [ it10 ]
Stopped: [ prmApache:1 ]
Clone Set: clnDiskd
Started: [ it10 ]
Stopped: [ prmDiskd:0 prmDiskd:1 ]
Clone Set: clnPing
Started: [ it10 ]
Stopped: [ prmPing:0 prmPing:1 ]
------- $B0[>o;~(B $B$3$3$^$G(B ------------------

$B$h$m$7$/$*4j$$CW$7$^$9!#(B

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


renayama19661014 at ybb

Jan 17, 2012, 2:34 AM

Post #2 of 10 (627 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

和田さん

こんにちは、山内です。

設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?

もし、孤立した1ノードが孤立した時点で、リブートされて問題ないのであれば、通常
freezeなどの設定を行っていただければ、残りの2ノード側からstonithが実行されます。
#ただし、この場合、STONITHのリソース設定は必須です。

また、たぶん、孤立したノードが参加しようとはしているはずですが、なんらかの要因(Pacemakerもしくはcorosync)で再構成を取れない状況だと思います。

各ノードのログ、cib.xml(もしくは投入されたcrmファイル)を開示していただければ
もう少し詳細な回答が可能なのですが。。。

#予断ですが、Pacemakerでは複数ノード構成時にノード分断からのそのままの復旧は今の所うまく動きませんので、必ず、STONITHなりリブートなりの手順を行うことをお勧めいたします。


以上です。



--- On Tue, 2012/1/17, 和田 伸一朗 <wada.shinichiro [at] jp> wrote:

> 和田と申します。
> はじめまして。
>
> Corosync + Pacemaker + アプリケーションで N + 1構成を
> 作成しようとしています。
> #暫定的にアプリケーションは Apache を利用し、Clone を用いて
> #2 + 1構成としています。
>
> 通常の状態では、2 + 1構成を問題なく構築することが
> できたのですが、インタフェースの down / up を行った際に、
> インタフェースの down / up を行ったサーバの Current DC が
> 自分自身となり、回復しない状態となってしまいます。
>
> このような状態に発生させない方法、または、Corosync の restart を
> 行わずに Current DC を統一する方法はございますでしょうか?
>
> なお、インタフェースの冗長化は行っておりません。
>
> ------- 正常時 ここから ------------------
> ============
> Last updated: Tue Jan 17 15:27:22 2012
> Stack: openais
> Current DC: it09 - partition with quorum
> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> 3 Nodes configured, 3 expected votes
> 3 Resources configured.
> ============
>
> Online: [ it08 it09 it10 ]
>
> Clone Set: clnApache
>      Started: [ it08 it09 ]
> Clone Set: clnDiskd
>      Started: [ it08 it09 it10 ]
> Clone Set: clnPing
>      Started: [ it08 it09 it10 ]
> ------- 正常時 ここまで ------------------
>
> ------- 異常時 ここから ------------------
> ============
> Last updated: Tue Jan 17 15:28:05 2012
> Stack: openais
> Current DC: it09 - partition with quorum
> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> 3 Nodes configured, 3 expected votes
> 3 Resources configured.
> ============
>
> Online: [ it08 it09 ]
> OFFLINE: [ it10 ]
>
> Clone Set: clnApache
>      Started: [ it08 it09 ]
> Clone Set: clnDiskd
>      Started: [ it08 it09 ]
>      Stopped: [ prmDiskd:2 ]
> Clone Set: clnPing
>      Started: [ it08 it09 ]
>      Stopped: [ prmPing:2 ]
> ------------------------------------------
> ============
> Last updated: Tue Jan 17 16:18:28 2012
> Stack: openais
> Current DC: it10 - partition WITHOUT quorum
> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> 3 Nodes configured, 3 expected votes
> 3 Resources configured.
> ============
>
> Online: [ it10 ]
> OFFLINE: [ it08 it09 ]
>
> Clone Set: clnApache
>      Started: [ it10 ]
>      Stopped: [ prmApache:1 ]
> Clone Set: clnDiskd
>      Started: [ it10 ]
>      Stopped: [ prmDiskd:0 prmDiskd:1 ]
> Clone Set: clnPing
>      Started: [ it10 ]
>      Stopped: [ prmPing:0 prmPing:1 ]
> ------- 異常時 ここまで ------------------
>
> よろしくお願い致します。
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


wada.shinichiro at jp

Jan 17, 2012, 3:27 AM

Post #3 of 10 (601 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

$B;3Fb$5$s(B

$B$3$s$K$A$O!#(B
$BOBED$G$9!#(B

$BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B

> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B

$B8=>u!"(Bignore $B$r [at] _D$7$F$$$^$9!#(B
$B!t(Bfreeze$B$K [at] _D$9$kI,MW$,$"$k$N$G$9$M!#!#!#(B

> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B

STONITH$B$N [at] _D$H$$$&$N$,!"==J,$KM}2r$G$-$F$$$J$$$N$G$9$,!"(B
stonith-helper$B$N$_$r [at] _D$9$l$P$h$$$N$G$7$g$&$+!)(B
$B$^$?!"(BN + 1$B9=@.$N>l9g$N [at] _Dj}K!$,$h$/$o$+$i$J$$$N$G$9$,!";29M$H$J$k(B
$B%5%$%HEy$r$465<($$$?$@$1$J$$$G$7$g$&$+!)(B

$B$^$?!"(Bfreeze$B$H$$$&%-!<%o!<%I$r$b$H$K8!:w$7$?$H$3$m2a5n$N;3Fb$5$s$N(B
$B2sEz$K$?$I$jCe$$$?$N$G$9$,!"(B
http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html

2:1$B$GJ,CG$5$l$?$H$-$K!"(B1$B$rDd;_$7$FLdBj$J$$$H$9$k$H!"(Bno-quorum-policy $B$r(B stop $B$K(B
$B [at] _D$9$k!#!J$3$N>l9g!"(BSTONITH$B$N [at] _D$O$7$J$/$F$b$h$$!#!K(B
$B$H$$$&M}2r$G$"$C$F$$$k$G$7$g$&$+!)(B

$BEjF~$7$?(Bcrm$B%U%!%$%k$r0J2<$K5-:\$7$^$9!#(B

-------------------------------------------------------------------------------
primitive prmPing ocf:pacemaker:ping \
params \
name="ping_set" \
host_list="192.168.1.1 192.168.2.1" \
multiplier="100" \
dampen="0" \
meta \
migration-threshold="3" \
failure-timeout="60s" \
op start interval="0s" timeout="90s" on-fail="standby" \
op monitor interval="10s" timeout="60s" on-fail="standby" \
op stop interval="0s" timeout="100s" on-fail="block"

primitive prmApache ocf:heartbeat:apache \
params configfile="/etc/httpd/conf/httpd.conf" \
port="80" \
op start interval="0s" timeout="40s" on-fail="standby" \
op monitor interval="10s" timeout="60s" on-fail="standby" \
op stop interval="0s" timeout="60s" on-fail="block"

primitive prmDiskd ocf:pacemaker:diskd \
params name="diskd_set" \
device="/dev/sda1" \
op start interval="0s" timeout="60s" on-fail="standby" \
op monitor interval="10s" timeout="60s" on-fail="standby" \
op stop interval="0s" timeout="60s" on-fail="block"

clone clnApache prmApache \
meta clone-max="2" clone-node-max="1"

clone clnPing prmPing \
meta clone-max="3" clone-node-max="1"

clone clnDiskd prmDiskd \
meta clone-max="3" clone-node-max="1"

location clnApache-location clnApache \
rule 200: #uname eq it08 \
rule 200: #uname eq it09 \
rule 100: #uname eq it10 \
rule -INFINITY: defined ping_set and ping_set lt 200 \
rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS

colocation clnPing-colocation 1000: clnApache clnPing
colocation clnDiskd-colocation 1000: clnApache clnDiskd
order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false

property stonith-enabled="false" \
no-quorum-policy="stop"

rsc_defaults resource-stickiness="INFINITY" \
migration-threshold="1"

-------------------------------------------------------------------------------

$B$h$m$7$/$*4j$$CW$7$^$9!#(B

> $BOBED$5$s(B
>
> $B$3$s$K$A$O!";3Fb$G$9!#(B
>
> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>
> $B$b$7!"8IN)$7$?#1%N!<%I$,8IN)$7$?;~E@$G!"%j%V!<%H$5$l$FLdBj$J$$$N$G$"$l$P!"DL>o(B
> freeze$B$J$I$N [at] _D$r9T$C$F$$$?$@$1$l$P!";D$j$N#2%N!<%IB&$+$i(Bstonith$B$,<B9T$5$l$^$9!#(B
> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>
> $B$^$?!"$?$V$s!"8IN)$7$?%N!<%I$,;22C$7$h$&$H$O$7$F$$$k$O$:$G$9$,!"$J$s$i$+$NMW0x!J(BPacemaker$B$b$7$/$O(Bcorosync$B!K$G:F9=@.$r<h$l$J$$>u67$@$H;W$$$^$9!#(B
>
> $B3F%N!<%I$N%m%0!"(Bcib.xml($B$b$7$/$OEjF~$5$l$?(Bcrm$B%U%!%$%k!K$r3+<($7$F$$$?$@$1$l$P(B
> $B$b$&>/$7>\:Y$J2sEz$,2DG=$J$N$G$9$,!#!#!#(B
>
> $B!tM=CG$G$9$,!"(BPacemaker$B$G$OJ#?t%N!<%I9=@.;~$K%N!<%IJ,CG$+$i$N$=$N$^$^$NI|5l$O:#$N=j$&$^$/F0$-$^$;$s$N$G!"I,$:!"(BSTONITH$B$J$j%j%V!<%H$J$j$N<j=g$r9T$&$3$H$r$*4+$a$$$?$7$^$9!#(B
>
>
> $B0J>e$G$9!#(B
>
>
>
> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>
>> $BOBED$H?=$7$^$9!#(B
>> $B$O$8$a$^$7$F!#(B
>>
>> Corosync + Pacemaker + $B%"%W%j%1!<%7%g%s$G(B N + 1$B9=@.$r(B
>> $B:n@.$7$h$&$H$7$F$$$^$9!#(B
>> $B!t;CDjE*$K%"%W%j%1!<%7%g%s$O(B Apache $B$rMxMQ$7!"(BClone $B$rMQ$$$F(B
>> $B!t(B2 + 1$B9=@.$H$7$F$$$^$9!#(B
>>
>> $BDL>o$N>uBV$G$O!"(B2 + 1$B9=@.$rLdBj$J$/9=C[$9$k$3$H$,(B
>> $B$G$-$?$N$G$9$,!"%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?:]$K!"(B
>> $B%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?%5!<%P$N(B Current DC $B$,(B
>> $B<+J,<+?H$H$J$j!"2sI|$7$J$$>uBV$H$J$C$F$7$^$$$^$9!#(B
>>
>> $B$3$N$h$&$J>uBV$KH/@8$5$;$J$$J}K!!"$^$?$O!"(BCorosync $B$N(B restart $B$r(B
>> $B9T$o$:$K(B Current DC $B$rE}0l$9$kJ}K!$O$4$6$$$^$9$G$7$g$&$+!)(B
>>
>> $B$J$*!"%$%s%?%U%'!<%9$N>iD92=$O9T$C$F$*$j$^$;$s!#(B
>>
>> ------- $B@5>o;~(B $B$3$3$+$i(B ------------------
>> ============
>> Last updated: Tue Jan 17 15:27:22 2012
>> Stack: openais
>> Current DC: it09 - partition with quorum
>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>> 3 Nodes configured, 3 expected votes
>> 3 Resources configured.
>> ============
>>
>> Online: [ it08 it09 it10 ]
>>
>> Clone Set: clnApache
>> Started: [ it08 it09 ]
>> Clone Set: clnDiskd
>> Started: [ it08 it09 it10 ]
>> Clone Set: clnPing
>> Started: [ it08 it09 it10 ]
>> ------- $B@5>o;~(B $B$3$3$^$G(B ------------------
>>
>> ------- $B0[>o;~(B $B$3$3$+$i(B ------------------
>> ============
>> Last updated: Tue Jan 17 15:28:05 2012
>> Stack: openais
>> Current DC: it09 - partition with quorum
>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>> 3 Nodes configured, 3 expected votes
>> 3 Resources configured.
>> ============
>>
>> Online: [ it08 it09 ]
>> OFFLINE: [ it10 ]
>>
>> Clone Set: clnApache
>> Started: [ it08 it09 ]
>> Clone Set: clnDiskd
>> Started: [ it08 it09 ]
>> Stopped: [ prmDiskd:2 ]
>> Clone Set: clnPing
>> Started: [ it08 it09 ]
>> Stopped: [ prmPing:2 ]
>> ------------------------------------------
>> ============
>> Last updated: Tue Jan 17 16:18:28 2012
>> Stack: openais
>> Current DC: it10 - partition WITHOUT quorum
>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>> 3 Nodes configured, 3 expected votes
>> 3 Resources configured.
>> ============
>>
>> Online: [ it10 ]
>> OFFLINE: [ it08 it09 ]
>>
>> Clone Set: clnApache
>> Started: [ it10 ]
>> Stopped: [ prmApache:1 ]
>> Clone Set: clnDiskd
>> Started: [ it10 ]
>> Stopped: [ prmDiskd:0 prmDiskd:1 ]
>> Clone Set: clnPing
>> Started: [ it10 ]
>> Stopped: [ prmPing:0 prmPing:1 ]
>> ------- $B0[>o;~(B $B$3$3$^$G(B ------------------
>>
>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux-ha-japan [at] lists
>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


renayama19661014 at ybb

Jan 17, 2012, 3:52 AM

Post #4 of 10 (630 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

和田さん

こんばんは、山内です。

> 早々のご回答ありがとうございます。
>
> > 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
>
> 現状、ignore を設定しています。
> #freezeに設定する必要があるのですね。。。

はい。
基本的には、分断の制御をPacemakerにさせるのであれば、freeze(もしくはstop)に設定する必要があります。

>
> > #ただし、この場合、STONITHのリソース設定は必須です。
>
> STONITHの設定というのが、十分に理解できていないのですが、
> stonith-helperのみを設定すればよいのでしょうか?
> また、N + 1構成の場合の設定方法がよくわからないのですが、参考となる
> サイト等をご教示いただけないでしょうか?

いえ、stonith-helperの他に実際に孤立したノードを落とす為のstonithリソースが必要になります。
#サイトなどは明日ご連絡しますね。

>
> また、freezeというキーワードをもとに検索したところ過去の山内さんの
> 回答にたどり着いたのですが、
> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html

はい。


> 2:1で分断されたときに、1を停止して問題ないとすると、no-quorum-policy を stop に
> 設定する。(この場合、STONITHの設定はしなくてもよい。)
> という理解であっているでしょうか?

いえ、そういうことではありません。
1でリソースを停止して問題ないということまでは正しいのですが、その後、1
を2側から落とす事が必要になりますので、STONITHは必要です。
#このあたりももう少し詳細に明日回答します。



>
> 投入したcrmファイルを以下に記載します。
>
> -------------------------------------------------------------------------------
> primitive prmPing ocf:pacemaker:ping \
>          params \
>                  name="ping_set" \
>                  host_list="192.168.1.1 192.168.2.1" \
>                  multiplier="100" \
>                  dampen="0" \
>          meta \
>                  migration-threshold="3" \
>                  failure-timeout="60s" \
>          op start interval="0s" timeout="90s" on-fail="standby" \
>          op monitor interval="10s" timeout="60s" on-fail="standby" \
>          op stop interval="0s" timeout="100s" on-fail="block"
>
> primitive prmApache ocf:heartbeat:apache \
>          params configfile="/etc/httpd/conf/httpd.conf" \
>          port="80" \
>          op start interval="0s" timeout="40s" on-fail="standby" \
>          op monitor interval="10s" timeout="60s" on-fail="standby" \
>          op stop interval="0s" timeout="60s" on-fail="block"
>
> primitive prmDiskd ocf:pacemaker:diskd \
>          params name="diskd_set" \
>          device="/dev/sda1" \
>          op start interval="0s" timeout="60s" on-fail="standby" \
>          op monitor interval="10s" timeout="60s" on-fail="standby" \
>          op stop interval="0s" timeout="60s" on-fail="block"
>
> clone clnApache prmApache \
>          meta clone-max="2" clone-node-max="1"
>
> clone clnPing prmPing \
>          meta clone-max="3" clone-node-max="1"
>
> clone clnDiskd prmDiskd \
>          meta clone-max="3" clone-node-max="1"
>
> location clnApache-location clnApache \
>          rule 200: #uname eq it08 \
>          rule 200: #uname eq it09 \
>          rule 100: #uname eq it10 \
>          rule -INFINITY: defined ping_set and ping_set lt 200 \
>          rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
>
> colocation clnPing-colocation 1000: clnApache clnPing
> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
>
> property stonith-enabled="false" \
>          no-quorum-policy="stop"
>
> rsc_defaults resource-stickiness="INFINITY" \
>          migration-threshold="1"
>
> -------------------------------------------------------------------------------
>
> よろしくお願い致します。

STONITHを設定した後で、apacheなどのstopのon-failはfenceにして頂いた方が良いです。
blockですと、そのままリソース停止に失敗した状態で止まってしまい、リソースは停止(サービス停止)となります。

こちらも設定に関して、明日見直してさらに詳細をご連絡いたします。

以上です。


>
> > 和田さん
> >
> > こんにちは、山内です。
> >
> > 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >
> > もし、孤立した1ノードが孤立した時点で、リブートされて問題ないのであれば、通常
> > freezeなどの設定を行っていただければ、残りの2ノード側からstonithが実行されます。
> > #ただし、この場合、STONITHのリソース設定は必須です。
> >
> > また、たぶん、孤立したノードが参加しようとはしているはずですが、なんらかの要因(Pacemakerもしくはcorosync)で再構成を取れない状況だと思います。
> >
> > 各ノードのログ、cib.xml(もしくは投入されたcrmファイル)を開示していただければ
> > もう少し詳細な回答が可能なのですが。。。
> >
> > #予断ですが、Pacemakerでは複数ノード構成時にノード分断からのそのままの復旧は今の所うまく動きませんので、必ず、STONITHなりリブートなりの手順を行うことをお勧めいたします。
> >
> >
> > 以上です。
> >
> >
> >
> > --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>  wrote:
> >
> >> 和田と申します。
> >> はじめまして。
> >>
> >> Corosync + Pacemaker + アプリケーションで N + 1構成を
> >> 作成しようとしています。
> >> #暫定的にアプリケーションは Apache を利用し、Clone を用いて
> >> #2 + 1構成としています。
> >>
> >> 通常の状態では、2 + 1構成を問題なく構築することが
> >> できたのですが、インタフェースの down / up を行った際に、
> >> インタフェースの down / up を行ったサーバの Current DC が
> >> 自分自身となり、回復しない状態となってしまいます。
> >>
> >> このような状態に発生させない方法、または、Corosync の restart を
> >> 行わずに Current DC を統一する方法はございますでしょうか?
> >>
> >> なお、インタフェースの冗長化は行っておりません。
> >>
> >> ------- 正常時 ここから ------------------
> >> ============
> >> Last updated: Tue Jan 17 15:27:22 2012
> >> Stack: openais
> >> Current DC: it09 - partition with quorum
> >> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >> 3 Nodes configured, 3 expected votes
> >> 3 Resources configured.
> >> ============
> >>
> >> Online: [ it08 it09 it10 ]
> >>
> >>   Clone Set: clnApache
> >>       Started: [ it08 it09 ]
> >>   Clone Set: clnDiskd
> >>       Started: [ it08 it09 it10 ]
> >>   Clone Set: clnPing
> >>       Started: [ it08 it09 it10 ]
> >> ------- 正常時 ここまで ------------------
> >>
> >> ------- 異常時 ここから ------------------
> >> ============
> >> Last updated: Tue Jan 17 15:28:05 2012
> >> Stack: openais
> >> Current DC: it09 - partition with quorum
> >> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >> 3 Nodes configured, 3 expected votes
> >> 3 Resources configured.
> >> ============
> >>
> >> Online: [ it08 it09 ]
> >> OFFLINE: [ it10 ]
> >>
> >>   Clone Set: clnApache
> >>       Started: [ it08 it09 ]
> >>   Clone Set: clnDiskd
> >>       Started: [ it08 it09 ]
> >>       Stopped: [ prmDiskd:2 ]
> >>   Clone Set: clnPing
> >>       Started: [ it08 it09 ]
> >>       Stopped: [ prmPing:2 ]
> >> ------------------------------------------
> >> ============
> >> Last updated: Tue Jan 17 16:18:28 2012
> >> Stack: openais
> >> Current DC: it10 - partition WITHOUT quorum
> >> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >> 3 Nodes configured, 3 expected votes
> >> 3 Resources configured.
> >> ============
> >>
> >> Online: [ it10 ]
> >> OFFLINE: [ it08 it09 ]
> >>
> >>   Clone Set: clnApache
> >>       Started: [ it10 ]
> >>       Stopped: [ prmApache:1 ]
> >>   Clone Set: clnDiskd
> >>       Started: [ it10 ]
> >>       Stopped: [ prmDiskd:0 prmDiskd:1 ]
> >>   Clone Set: clnPing
> >>       Started: [ it10 ]
> >>       Stopped: [ prmPing:0 prmPing:1 ]
> >> ------- 異常時 ここまで ------------------
> >>
> >> よろしくお願い致します。
> >>
> >> _______________________________________________
> >> Linux-ha-japan mailing list
> >> Linux-ha-japan [at] lists
> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux-ha-japan [at] lists
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


wada.shinichiro at jp

Jan 17, 2012, 4:20 AM

Post #5 of 10 (597 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

$B;3Fb$5$s(B

$B$3$s$P$s$O!#(B
$BOBED$G$9!#(B

$BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B

$B$$$m$$$m$H [at] _D$N8+D>$7$,I,MW$=$&$G$9$M!#!#!#(B
$B$=$l$G$O!"L@F|!"$h$m$7$/$*4j$$CW$7$^$9!#(B

> $BOBED$5$s(B
>
> $B$3$s$P$s$O!";3Fb$G$9!#(B
>
>> $BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B
>>
>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>
>> $B8=>u!"(Bignore $B$r [at] _D$7$F$$$^$9!#(B
>> $B!t(Bfreeze$B$K [at] _D$9$kI,MW$,$"$k$N$G$9$M!#!#!#(B
>
> $B$O$$!#(B
> $B4pK\E*$K$O!"J,CG$N@)8f$r(BPacemaker$B$K$5$;$k$N$G$"$l$P!"(Bfreeze($B$b$7$/$O(Bstop)$B$K [at] _D$9$kI,MW$,$"$j$^$9!#(B
>
>>
>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>
>> STONITH$B$N [at] _D$H$$$&$N$,!"==J,$KM}2r$G$-$F$$$J$$$N$G$9$,!"(B
>> stonith-helper$B$N$_$r [at] _D$9$l$P$h$$$N$G$7$g$&$+!)(B
>> $B$^$?!"(BN + 1$B9=@.$N>l9g$N [at] _Dj}K!$,$h$/$o$+$i$J$$$N$G$9$,!";29M$H$J$k(B
>> $B%5%$%HEy$r$465<($$$?$@$1$J$$$G$7$g$&$+!)(B
>
> $B$$$(!"(Bstonith-helper$B$NB>$K<B:]$K8IN)$7$?%N!<%I$rMn$H$90Y$N(Bstonith$B%j%=!<%9$,I,MW$K$J$j$^$9!#(B
> $B!t%5%$%H$J$I$OL@F|$4O"Mm$7$^$9$M!#(B
>
>>
>> $B$^$?!"(Bfreeze$B$H$$$&%-!<%o!<%I$r$b$H$K8!:w$7$?$H$3$m2a5n$N;3Fb$5$s$N(B
>> $B2sEz$K$?$I$jCe$$$?$N$G$9$,!"(B
>> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
>
> $B$O$$!#(B
>
>
>> 2:1$B$GJ,CG$5$l$?$H$-$K!"(B1$B$rDd;_$7$FLdBj$J$$$H$9$k$H!"(Bno-quorum-policy $B$r(B stop $B$K(B
>> $B [at] _D$9$k!#!J$3$N>l9g!"(BSTONITH$B$N [at] _D$O$7$J$/$F$b$h$$!#!K(B
>> $B$H$$$&M}2r$G$"$C$F$$$k$G$7$g$&$+!)(B
>
> $B$$$(!"$=$&$$$&$3$H$G$O$"$j$^$;$s!#(B
> $B#1$G%j%=!<%9$rDd;_$7$FLdBj$J$$$H$$$&$3$H$^$G$O@5$7$$$N$G$9$,!"$=$N8e!"(B1
> $B$r#2B&$+$iMn$H$9;v$,I,MW$K$J$j$^$9$N$G!"(BSTONITH$B$OI,MW$G$9!#(B
> $B!t$3$N$"$?$j$b$b$&>/$7>\:Y$KL@F|2sEz$7$^$9!#(B
>
>
>
>>
>> $BEjF~$7$?(Bcrm$B%U%!%$%k$r0J2<$K5-:\$7$^$9!#(B
>>
>> -------------------------------------------------------------------------------
>> primitive prmPing ocf:pacemaker:ping \
>> params \
>> name="ping_set" \
>> host_list="192.168.1.1 192.168.2.1" \
>> multiplier="100" \
>> dampen="0" \
>> meta \
>> migration-threshold="3" \
>> failure-timeout="60s" \
>> op start interval="0s" timeout="90s" on-fail="standby" \
>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>> op stop interval="0s" timeout="100s" on-fail="block"
>>
>> primitive prmApache ocf:heartbeat:apache \
>> params configfile="/etc/httpd/conf/httpd.conf" \
>> port="80" \
>> op start interval="0s" timeout="40s" on-fail="standby" \
>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>> op stop interval="0s" timeout="60s" on-fail="block"
>>
>> primitive prmDiskd ocf:pacemaker:diskd \
>> params name="diskd_set" \
>> device="/dev/sda1" \
>> op start interval="0s" timeout="60s" on-fail="standby" \
>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>> op stop interval="0s" timeout="60s" on-fail="block"
>>
>> clone clnApache prmApache \
>> meta clone-max="2" clone-node-max="1"
>>
>> clone clnPing prmPing \
>> meta clone-max="3" clone-node-max="1"
>>
>> clone clnDiskd prmDiskd \
>> meta clone-max="3" clone-node-max="1"
>>
>> location clnApache-location clnApache \
>> rule 200: #uname eq it08 \
>> rule 200: #uname eq it09 \
>> rule 100: #uname eq it10 \
>> rule -INFINITY: defined ping_set and ping_set lt 200 \
>> rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
>>
>> colocation clnPing-colocation 1000: clnApache clnPing
>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
>> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
>>
>> property stonith-enabled="false" \
>> no-quorum-policy="stop"
>>
>> rsc_defaults resource-stickiness="INFINITY" \
>> migration-threshold="1"
>>
>> -------------------------------------------------------------------------------
>>
>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>
> STONITH$B$r [at] _D$7$?8e$G!"(Bapache$B$J$I$N(Bstop$B$N(Bon-fail$B$O(Bfence$B$K$7$FD:$$$?J}$,NI$$$G$9!#(B
> block$B$G$9$H!"$=$N$^$^%j%=!<%9Dd;_$K<:GT$7$?>uBV$G;_$^$C$F$7$^$$!"%j%=!<%9$ODd;_!J%5!<%S%9Dd;_!K$H$J$j$^$9!#(B
>
> $B$3$A$i$b [at] _D$K4X$7$F!"L@F|8+D>$7$F$5$i$K>\:Y$r$4O"Mm$$$?$7$^$9!#(B
>
> $B0J>e$G$9!#(B
>
>
>>
>>> $BOBED$5$s(B
>>>
>>> $B$3$s$K$A$O!";3Fb$G$9!#(B
>>>
>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>>
>>> $B$b$7!"8IN)$7$?#1%N!<%I$,8IN)$7$?;~E@$G!"%j%V!<%H$5$l$FLdBj$J$$$N$G$"$l$P!"DL>o(B
>>> freeze$B$J$I$N [at] _D$r9T$C$F$$$?$@$1$l$P!";D$j$N#2%N!<%IB&$+$i(Bstonith$B$,<B9T$5$l$^$9!#(B
>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>>
>>> $B$^$?!"$?$V$s!"8IN)$7$?%N!<%I$,;22C$7$h$&$H$O$7$F$$$k$O$:$G$9$,!"$J$s$i$+$NMW0x!J(BPacemaker$B$b$7$/$O(Bcorosync$B!K$G:F9=@.$r<h$l$J$$>u67$@$H;W$$$^$9!#(B
>>>
>>> $B3F%N!<%I$N%m%0!"(Bcib.xml($B$b$7$/$OEjF~$5$l$?(Bcrm$B%U%!%$%k!K$r3+<($7$F$$$?$@$1$l$P(B
>>> $B$b$&>/$7>\:Y$J2sEz$,2DG=$J$N$G$9$,!#!#!#(B
>>>
>>> $B!tM=CG$G$9$,!"(BPacemaker$B$G$OJ#?t%N!<%I9=@.;~$K%N!<%IJ,CG$+$i$N$=$N$^$^$NI|5l$O:#$N=j$&$^$/F0$-$^$;$s$N$G!"I,$:!"(BSTONITH$B$J$j%j%V!<%H$J$j$N<j=g$r9T$&$3$H$r$*4+$a$$$?$7$^$9!#(B
>>>
>>>
>>> $B0J>e$G$9!#(B
>>>
>>>
>>>
>>> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>>>
>>>> $BOBED$H?=$7$^$9!#(B
>>>> $B$O$8$a$^$7$F!#(B
>>>>
>>>> Corosync + Pacemaker + $B%"%W%j%1!<%7%g%s$G(B N + 1$B9=@.$r(B
>>>> $B:n@.$7$h$&$H$7$F$$$^$9!#(B
>>>> $B!t;CDjE*$K%"%W%j%1!<%7%g%s$O(B Apache $B$rMxMQ$7!"(BClone $B$rMQ$$$F(B
>>>> $B!t(B2 + 1$B9=@.$H$7$F$$$^$9!#(B
>>>>
>>>> $BDL>o$N>uBV$G$O!"(B2 + 1$B9=@.$rLdBj$J$/9=C[$9$k$3$H$,(B
>>>> $B$G$-$?$N$G$9$,!"%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?:]$K!"(B
>>>> $B%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?%5!<%P$N(B Current DC $B$,(B
>>>> $B<+J,<+?H$H$J$j!"2sI|$7$J$$>uBV$H$J$C$F$7$^$$$^$9!#(B
>>>>
>>>> $B$3$N$h$&$J>uBV$KH/@8$5$;$J$$J}K!!"$^$?$O!"(BCorosync $B$N(B restart $B$r(B
>>>> $B9T$o$:$K(B Current DC $B$rE}0l$9$kJ}K!$O$4$6$$$^$9$G$7$g$&$+!)(B
>>>>
>>>> $B$J$*!"%$%s%?%U%'!<%9$N>iD92=$O9T$C$F$*$j$^$;$s!#(B
>>>>
>>>> ------- $B@5>o;~(B $B$3$3$+$i(B ------------------
>>>> ============
>>>> Last updated: Tue Jan 17 15:27:22 2012
>>>> Stack: openais
>>>> Current DC: it09 - partition with quorum
>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>> 3 Nodes configured, 3 expected votes
>>>> 3 Resources configured.
>>>> ============
>>>>
>>>> Online: [ it08 it09 it10 ]
>>>>
>>>> Clone Set: clnApache
>>>> Started: [ it08 it09 ]
>>>> Clone Set: clnDiskd
>>>> Started: [ it08 it09 it10 ]
>>>> Clone Set: clnPing
>>>> Started: [ it08 it09 it10 ]
>>>> ------- $B@5>o;~(B $B$3$3$^$G(B ------------------
>>>>
>>>> ------- $B0[>o;~(B $B$3$3$+$i(B ------------------
>>>> ============
>>>> Last updated: Tue Jan 17 15:28:05 2012
>>>> Stack: openais
>>>> Current DC: it09 - partition with quorum
>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>> 3 Nodes configured, 3 expected votes
>>>> 3 Resources configured.
>>>> ============
>>>>
>>>> Online: [ it08 it09 ]
>>>> OFFLINE: [ it10 ]
>>>>
>>>> Clone Set: clnApache
>>>> Started: [ it08 it09 ]
>>>> Clone Set: clnDiskd
>>>> Started: [ it08 it09 ]
>>>> Stopped: [ prmDiskd:2 ]
>>>> Clone Set: clnPing
>>>> Started: [ it08 it09 ]
>>>> Stopped: [ prmPing:2 ]
>>>> ------------------------------------------
>>>> ============
>>>> Last updated: Tue Jan 17 16:18:28 2012
>>>> Stack: openais
>>>> Current DC: it10 - partition WITHOUT quorum
>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>> 3 Nodes configured, 3 expected votes
>>>> 3 Resources configured.
>>>> ============
>>>>
>>>> Online: [ it10 ]
>>>> OFFLINE: [ it08 it09 ]
>>>>
>>>> Clone Set: clnApache
>>>> Started: [ it10 ]
>>>> Stopped: [ prmApache:1 ]
>>>> Clone Set: clnDiskd
>>>> Started: [ it10 ]
>>>> Stopped: [ prmDiskd:0 prmDiskd:1 ]
>>>> Clone Set: clnPing
>>>> Started: [ it10 ]
>>>> Stopped: [ prmPing:0 prmPing:1 ]
>>>> ------- $B0[>o;~(B $B$3$3$^$G(B ------------------
>>>>
>>>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>>
>>>> _______________________________________________
>>>> Linux-ha-japan mailing list
>>>> Linux-ha-japan [at] lists
>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>
>>>
>>> _______________________________________________
>>> Linux-ha-japan mailing list
>>> Linux-ha-japan [at] lists
>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>> ___________# crm configure____________________________________
>> Linux-ha-japan mailing list
>> Linux-ha-japan [at] lists
>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


renayama19661014 at ybb

Jan 17, 2012, 4:51 PM

Post #6 of 10 (603 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

和田さん

おはようございます。山内です。

先日の件、回答いたします。

stonithの設定に関しては、本家だと
* http://www.clusterlabs.org/doc/crm_fencing.html
のあたりにありますが、わかりずらいかと思います。

基本的には、N+1ノードの場合であれば、それぞれのノードに他の1ノードをstonith出来るようなstonithのリソースグループをタスキ掛けに配置して、自ノード分のstonithは配置出来ないような設定をすることが良いと思います。
(stonithで利用するリソースによっては、cloneで配置することも可能です)

制御ボードを持ったクラスタを構成する実機がIBMであれば、ibmrsa-telnet。
HPであれば、riloe。
制御ボードでipmiが使えるならば、ipmi。。といったstonithリソースを使って、対象の障害ノードを落とす(fencing)することが可能です。
制御ボードを持たない場合であれば、sshあたりを利用することになります。
* stonithリソースに関しては、stonith -Lコマンドで利用可能なstonithリソースが表示可能です。

stonithのグループリソースとしては以下のような構成が望ましいと思います。

1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す

これらのstonithのグループリソースを全てのノード毎に用意して、タスキ掛けで配置するイメージになります。(cloneでの設定は割愛します)

以下にcib.xml形式ですが、stonithグループの1つの例と、配置制約を記載しておきます。
このようなstonithのグループリソースをタスキ掛けの配置します。
#実際の設定が最新のstonithのパラメータにあっているかどうかは、再度、ご確認ください。

* grpStonith1は、srv02をfencingする為のリソース
<group id="grpStonith1">
<primitive class="stonith" id="prmStonith1-1" type="external/stonith-helper">
<instance_attributes id="prmStonith1-1-instance_attributes">
<nvpair id="prmStonith1-1-priority" name="priority" value="1"/>
<nvpair id="prmStonith1-1-stonith-timeout" name="stonith-timeout" value="60s"/>
<nvpair id="prmStonith1-1-hostlist" name="hostlist" value="srv02"/>
<nvpair id="prmStonith1-1-dead_check_target" name="dead_check_target" value="192.168.40.20"/>
<nvpair id="prmStonith1-1-run_standby_wait" name="run_standby_wait" value="no"/>
</instance_attributes>
<operations>
<op id="prmStonith1-1-start" interval="0" name="start" timeout="60s"/>
<op id="prmStonith1-1-monitor" interval="3600s" name="monitor" timeout="60s"/>
<op id="prmStonith1-1-stop" interval="0" name="stop" timeout="60s"/>
</operations>
</primitive>
<primitive class="stonith" id="prmStonith1-3" type="external/ssh">
<instance_attributes id="prmStonith1-3-instance_attributes">
<nvpair id="prmStonith1-3-priority" name="priority" value="3"/>
<nvpair id="prmStonith1-3-stonith-timeout" name="stonith-timeout" value="60s"/>
<nvpair id="prmStonith1-3-ip_address" name="hostlist" value="srv02"/>
</instance_attributes>
<operations>
<op id="prmStonith1-3-start" interval="0" name="start" timeout="60s"/>
<op id="prmStonith1-3-monitor" interval="3600s" name="monitor" timeout="60s"/>
<op id="prmStonith1-3-stop" interval="0" name="stop" timeout="60s"/>
</operations>
</primitive>
<primitive class="stonith" id="prmStonith1-4" type="meatware">
<instance_attributes id="prmStonith1-4-instance_attributes">
<nvpair id="prmStonith1-4-priority" name="priority" value="4"/>
<nvpair id="prmStonith1-4-stonith-timeout" name="stonith-timeout" value="60s"/>
<nvpair id="prmStonith1-4-hostlist" name="hostlist" value="srv02"/>
</instance_attributes>
<operations>
<op id="prmStonith1-4-start" interval="0" name="start" timeout="60s"/>
<op id="prmStonith1-4-monitor" interval="3600s" name="monitor" timeout="60s"/>
<op id="prmStonith1-4-stop" interval="0" name="stop" timeout="60s"/>
</operations>
</primitive>
</group>
* grpStonith1はsrv02以外のノードにsrv01->srv03の優先度で配置される。
<rsc_location id="location-grpStonith01-1" rsc="grpStonith1">
<rule id="rule-grpStonith01-1" score="300">
<expression id="exp-grpStonith01-1" attribute="#uname" operation="eq" value="srv01"/>
</rule>
<rule id="rule-grpStonith01-2" score="-INFINITY">
<expression id="exp-grpStonith01-2" attribute="#uname" operation="eq" value="srv02"/>
</rule>
<rule id="rule-grpStonith01-3" score="200">
<expression id="exp-grpStonith01-3" attribute="#uname" operation="eq" value="srv03"/>
</rule>
</rsc_location>

quorum-policyに関してですが、再度整理して書かせて頂くと。。。
ignore....何もしません。クラスタ構成がquorum定数(2+1の場合、2より小さくなった)を満たさなくなっても何もしません。よって、孤立したノードもそのままで起動しています。

stop...quorum定数を満たさないノードはリソースを停止して、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。

freee...quorum定数を満たさないノードは何もしません。ですが、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。

注意する点は、stopの場合ですと、全ノードが孤立した場合には全てquorum定数を消失しますので、リソースは全ノードで停止してサービス停止が起きます。
freezeの場合は上記でも、リソースは起動したままですので、サービスは稼動可能です。

設定に関してですが、quorum-policyは上記を参考に設定していただくとして、stonithグループリソースを設定していただいてから、

propertyで、stonith-enabled="true",startup-fencing="false"と
stonith-timeout="stonithグループリソースの計算上の処理にかかる秒数"を
設定してください。
#とりあえず、stonith-helper+ssh+meatwareであれば、stonith-timeout=430sあたりで十分かと思いますが、このあたりは実際の動作で調整してください。

また、各リソースのon-fail設定ですが、

start,monitorに関しては、restartで良いと思います。

また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
#追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
diskd,pingdに関しては、ignoreで良いと思います。

colocationに関しては、全て1000ではなくinfでOKかと思います。
#何か意図されていることがあるようでしたら、1000で構いませんが。。。。

> >> colocation clnPing-colocation 1000: clnApache clnPing
> >> colocation clnDiskd-colocation 1000: clnApache clnDiskd

以上です。


--- On Tue, 2012/1/17, 和田 伸一朗 <wada.shinichiro [at] jp> wrote:

> 山内さん
>
> こんばんは。
> 和田です。
>
> 早々のご回答ありがとうございます。
>
> いろいろと設定の見直しが必要そうですね。。。
> それでは、明日、よろしくお願い致します。
>
> > 和田さん
> >
> > こんばんは、山内です。
> >
> >> 早々のご回答ありがとうございます。
> >>
> >>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>
> >> 現状、ignore を設定しています。
> >> #freezeに設定する必要があるのですね。。。
> >
> > はい。
> > 基本的には、分断の制御をPacemakerにさせるのであれば、freeze(もしくはstop)に設定する必要があります。
> >
> >>
> >>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>
> >> STONITHの設定というのが、十分に理解できていないのですが、
> >> stonith-helperのみを設定すればよいのでしょうか?
> >> また、N + 1構成の場合の設定方法がよくわからないのですが、参考となる
> >> サイト等をご教示いただけないでしょうか?
> >
> > いえ、stonith-helperの他に実際に孤立したノードを落とす為のstonithリソースが必要になります。
> > #サイトなどは明日ご連絡しますね。
> >
> >>
> >> また、freezeというキーワードをもとに検索したところ過去の山内さんの
> >> 回答にたどり着いたのですが、
> >> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
> >
> > はい。
> >
> >
> >> 2:1で分断されたときに、1を停止して問題ないとすると、no-quorum-policy を stop に
> >> 設定する。(この場合、STONITHの設定はしなくてもよい。)
> >> という理解であっているでしょうか?
> >
> > いえ、そういうことではありません。
> > 1でリソースを停止して問題ないということまでは正しいのですが、その後、1
> > を2側から落とす事が必要になりますので、STONITHは必要です。
> > #このあたりももう少し詳細に明日回答します。
> >
> >
> >
> >>
> >> 投入したcrmファイルを以下に記載します。
> >>
> >> -------------------------------------------------------------------------------
> >> primitive prmPing ocf:pacemaker:ping \
> >>           params \
> >>                   name="ping_set" \
> >>                   host_list="192.168.1.1 192.168.2.1" \
> >>                   multiplier="100" \
> >>                   dampen="0" \
> >>           meta \
> >>                   migration-threshold="3" \
> >>                   failure-timeout="60s" \
> >>           op start interval="0s" timeout="90s" on-fail="standby" \
> >>           op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>           op stop interval="0s" timeout="100s" on-fail="block"
> >>
> >> primitive prmApache ocf:heartbeat:apache \
> >>           params configfile="/etc/httpd/conf/httpd.conf" \
> >>           port="80" \
> >>           op start interval="0s" timeout="40s" on-fail="standby" \
> >>           op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>           op stop interval="0s" timeout="60s" on-fail="block"
> >>
> >> primitive prmDiskd ocf:pacemaker:diskd \
> >>           params name="diskd_set" \
> >>           device="/dev/sda1" \
> >>           op start interval="0s" timeout="60s" on-fail="standby" \
> >>           op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>           op stop interval="0s" timeout="60s" on-fail="block"
> >>
> >> clone clnApache prmApache \
> >>           meta clone-max="2" clone-node-max="1"
> >>
> >> clone clnPing prmPing \
> >>           meta clone-max="3" clone-node-max="1"
> >>
> >> clone clnDiskd prmDiskd \
> >>           meta clone-max="3" clone-node-max="1"
> >>
> >> location clnApache-location clnApache \
> >>           rule 200: #uname eq it08 \
> >>           rule 200: #uname eq it09 \
> >>           rule 100: #uname eq it10 \
> >>           rule -INFINITY: defined ping_set and ping_set lt 200 \
> >>           rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
> >>
> >> colocation clnPing-colocation 1000: clnApache clnPing
> >> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
> >> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
> >>
> >> property stonith-enabled="false" \
> >>           no-quorum-policy="stop"
> >>
> >> rsc_defaults resource-stickiness="INFINITY" \
> >>           migration-threshold="1"
> >>
> >> -------------------------------------------------------------------------------
> >>
> >> よろしくお願い致します。
> >
> > STONITHを設定した後で、apacheなどのstopのon-failはfenceにして頂いた方が良いです。
> > blockですと、そのままリソース停止に失敗した状態で止まってしまい、リソースは停止(サービス停止)となります。
> >
> > こちらも設定に関して、明日見直してさらに詳細をご連絡いたします。
> >
> > 以上です。
> >
> >
> >>
> >>> 和田さん
> >>>
> >>> こんにちは、山内です。
> >>>
> >>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>>
> >>> もし、孤立した1ノードが孤立した時点で、リブートされて問題ないのであれば、通常
> >>> freezeなどの設定を行っていただければ、残りの2ノード側からstonithが実行されます。
> >>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>>
> >>> また、たぶん、孤立したノードが参加しようとはしているはずですが、なんらかの要因(Pacemakerもしくはcorosync)で再構成を取れない状況だと思います。
> >>>
> >>> 各ノードのログ、cib.xml(もしくは投入されたcrmファイル)を開示していただければ
> >>> もう少し詳細な回答が可能なのですが。。。
> >>>
> >>> #予断ですが、Pacemakerでは複数ノード構成時にノード分断からのそのままの復旧は今の所うまく動きませんので、必ず、STONITHなりリブートなりの手順を行うことをお勧めいたします。
> >>>
> >>>
> >>> 以上です。
> >>>
> >>>
> >>>
> >>> --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>   wrote:
> >>>
> >>>> 和田と申します。
> >>>> はじめまして。
> >>>>
> >>>> Corosync + Pacemaker + アプリケーションで N + 1構成を
> >>>> 作成しようとしています。
> >>>> #暫定的にアプリケーションは Apache を利用し、Clone を用いて
> >>>> #2 + 1構成としています。
> >>>>
> >>>> 通常の状態では、2 + 1構成を問題なく構築することが
> >>>> できたのですが、インタフェースの down / up を行った際に、
> >>>> インタフェースの down / up を行ったサーバの Current DC が
> >>>> 自分自身となり、回復しない状態となってしまいます。
> >>>>
> >>>> このような状態に発生させない方法、または、Corosync の restart を
> >>>> 行わずに Current DC を統一する方法はございますでしょうか?
> >>>>
> >>>> なお、インタフェースの冗長化は行っておりません。
> >>>>
> >>>> ------- 正常時 ここから ------------------
> >>>> ============
> >>>> Last updated: Tue Jan 17 15:27:22 2012
> >>>> Stack: openais
> >>>> Current DC: it09 - partition with quorum
> >>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>> 3 Nodes configured, 3 expected votes
> >>>> 3 Resources configured.
> >>>> ============
> >>>>
> >>>> Online: [ it08 it09 it10 ]
> >>>>
> >>>>     Clone Set: clnApache
> >>>>         Started: [ it08 it09 ]
> >>>>     Clone Set: clnDiskd
> >>>>         Started: [ it08 it09 it10 ]
> >>>>     Clone Set: clnPing
> >>>>         Started: [ it08 it09 it10 ]
> >>>> ------- 正常時 ここまで ------------------
> >>>>
> >>>> ------- 異常時 ここから ------------------
> >>>> ============
> >>>> Last updated: Tue Jan 17 15:28:05 2012
> >>>> Stack: openais
> >>>> Current DC: it09 - partition with quorum
> >>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>> 3 Nodes configured, 3 expected votes
> >>>> 3 Resources configured.
> >>>> ============
> >>>>
> >>>> Online: [ it08 it09 ]
> >>>> OFFLINE: [ it10 ]
> >>>>
> >>>>     Clone Set: clnApache
> >>>>         Started: [ it08 it09 ]
> >>>>     Clone Set: clnDiskd
> >>>>         Started: [ it08 it09 ]
> >>>>         Stopped: [ prmDiskd:2 ]
> >>>>     Clone Set: clnPing
> >>>>         Started: [ it08 it09 ]
> >>>>         Stopped: [ prmPing:2 ]
> >>>> ------------------------------------------
> >>>> ============
> >>>> Last updated: Tue Jan 17 16:18:28 2012
> >>>> Stack: openais
> >>>> Current DC: it10 - partition WITHOUT quorum
> >>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>> 3 Nodes configured, 3 expected votes
> >>>> 3 Resources configured.
> >>>> ============
> >>>>
> >>>> Online: [ it10 ]
> >>>> OFFLINE: [ it08 it09 ]
> >>>>
> >>>>     Clone Set: clnApache
> >>>>         Started: [ it10 ]
> >>>>         Stopped: [ prmApache:1 ]
> >>>>     Clone Set: clnDiskd
> >>>>         Started: [ it10 ]
> >>>>         Stopped: [ prmDiskd:0 prmDiskd:1 ]
> >>>>     Clone Set: clnPing
> >>>>         Started: [ it10 ]
> >>>>         Stopped: [ prmPing:0 prmPing:1 ]
> >>>> ------- 異常時 ここまで ------------------
> >>>>
> >>>> よろしくお願い致します。
> >>>>
> >>>> _______________________________________________
> >>>> Linux-ha-japan mailing list
> >>>> Linux-ha-japan [at] lists
> >>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>
> >>> _______________________________________________
> >>> Linux-ha-japan mailing list
> >>> Linux-ha-japan [at] lists
> >>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >> ___________# crm configure____________________________________
> >> Linux-ha-japan mailing list
> >> Linux-ha-japan [at] lists
> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux-ha-japan [at] lists
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


wada.shinichiro at jp

Jan 17, 2012, 7:05 PM

Post #7 of 10 (587 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

$B;3Fb$5$s(B

$B$3$s$K$A$O!#(B
$BOBED$G$9!#(B

$BCzG+$J$4 [at] b@$"$j$,$H$&$4$6$$$^$7$?!#(B

> 1. stonith-helper ....stonith$B$r<B9T$9$kI,MW$,$"$k$+$I$&$+$r%A%'%C%/(B
> 2. ssh...$B<B:]$K(Bstonith$B$r<B9T$9$k!J<B5!$K$h$C$F$O!"(Bibmrsa-telnet$B$d(Briloe,ipmi)
> 3. meatware ...$B:G=*E*$K(Bstonith$B$K<:GT$7$?>l9g$NJ]<i<T$N2p:_$rB%$9(B

$B$3$NJ}K!$G!"%j%V!<%H$G$-$k$3$H$^$G3NG'$,$G$-$^$7$?!#(B
$B$?$@!"%j%=!<%9$rEPO?$7$?$H$-$K!"(B

crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes

$B$H$$$&$h$&$J%a%C%;!<%8$,I=<($5$l$^$7$?!#(B

http://linux-ha.sourceforge.jp/wp/archives/1809/3
$B$K$O!V(BSTONITH$B$r [at] _D$7$F$$$J$$>l9g(B(stonith-enabled=$B!I(Bfalse$B!I(B)$B!">e5-$N%(%i!<$,=PNO$5$l$^$9$,(B
$B:#2s$OL5;k$7$F$/$@$5$$!#!W$H$"$j$^$9!#(B
stonith-enabled="true"$B$O [at] _D$7$F$$$^$9!#(B

$BFC$KLdBj$J$$%a%C%;!<%8$J$N$G$7$g$&$+!)(B
$B$=$l$H$b [at] _D$KITB-$,$"$k$N$G$7$g$&$+!#!#!#!)(B

$B$^$?!"%5!<%P$,(BSTONITH$B$K$h$C$F%j%V!<%H$5$l$?8e!"%j%V!<%H$5$l$?%5!<%P$GF0:n$7$F$$$?(B
STONITH$B$N [at] _D$,!"(B($BEv$?$jA0$G$9$,(B)$B$[$+$N%5!<%P$K0\F0$7$^$7$?!#(B
$B$3$l$r85$KLa$9$K$O<jF0$G0\F0$9$k$h$&$K$J$k$N$G$7$g$&$+!)(B

> start,monitor$B$K4X$7$F$O!"(Brestart$B$GNI$$$H;W$$$^$9!#(B
>
> $B$^$?!"(Bstop$B$K4X$7$F$O!"(Bdiskd,pingd$B0J30$O(Bfence$B$GNI$$$H;W$$$^$9!#(B
> #$BDI2C$7$?(Bstonith$B%j%=!<%9$K$h$C$F!"(Bstop$B$K<:GT$9$k$H(Bfencing$BF0:n$,F~$j$^$9!#(B
> diskd,pingd$B$K4X$7$F$O!"(Bignore$B$GNI$$$H;W$$$^$9!#(B

ACT/SBY$B$N9=@.$G3NG'$7$?:]$K!"(Brestart$B$K [at] _D$7$?(Bgroup$BFb$KJ#?t$N%j%=!<%9$,$"$C$?>l9g!"(B
group$BFb$N:G8e$N%j%=!<%90J30$K0[.>o$,H/@8$7$?>l9g!"$&$^$/@Z$jBX$o$i$J$+$C$?$?$a(B
standby$B$K [at] _D$7$F$$$^$7$?!#(B
$B:#2s!"$$$m$$$m$H$d$j<h$j$r$5$;$F$$$?$@$$$F!"(Bstop $B$N(B on-fail $B$,(B "block" $B$K$J$C$F(B
$B$$$?$+$i$G$O$J$$$+$H?dB,$7$F$$$^$9!#(B
STONITH$B$N [at] _D$b4^$a$F!"$4;XE&D:$$$?J}8~$G8+D>$7$?$$$H;W$$$^$9!#(B

> colocation$B$K4X$7$F$O!"A4$F(B1000$B$G$O$J$/(Binf$B$G(BOK$B$+$H;W$$$^$9!#(B
> $B!t2?$+0U?^$5$l$F$$$k$3$H$,$"$k$h$&$G$7$?$i!"(B1000$B$G9=$$$^$;$s$,!#!#!#!#(B
>
>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd

$B$O$$!"$=$&$G$9$M!#!#!#0U?^$O$J$$$G$9!#(B
INFINITY$B$K$7$?$$$H;W$$$^$9!#(B

$B$h$m$7$/$*4j$$CW$7$^$9!#(B

> $BOBED$5$s(B
>
> $B$*$O$h$&$4$6$$$^$9!#;3Fb$G$9!#(B
>
> $B [at] h|$N7o!"2sEz$$$?$7$^$9!#(B
>
> stonith$B$N [at] _D$K4X$7$F$O!"K\2H$@$H(B
> * http://www.clusterlabs.org/doc/crm_fencing.html
> $B$N$"$?$j$K$"$j$^$9$,!"$o$+$j$:$i$$$+$H;W$$$^$9!#(B
>
> $B4pK\E*$K$O!"(BN+1$B%N!<%I$N>l9g$G$"$l$P!"$=$l$>$l$N%N!<%I$KB>$N#1%N!<%I$r(Bstonith$B=PMh$k$h$&$J(Bstonith$B$N%j%=!<%9%0%k!<%W$r%?%9%-3]$1$KG[CV$7$F!"<+%N!<%IJ,$N(Bstonith$B$OG[CV=PMh$J$$$h$&$J [at] _D$r$9$k$3$H$,NI$$$H;W$$$^$9!#(B
> (stonith$B$GMxMQ$9$k%j%=!<%9$K$h$C$F$O!"(Bclone$B$GG[CV$9$k$3$H$b2DG=$G$9(B)
>
> $B@)8f%\!<%I$r;}$C$?%/%i%9%?$r9=@.$9$k<B5!$,(BIBM$B$G$"$l$P!"(Bibmrsa-telnet$B!#(B
> HP$B$G$"$l$P!"(Briloe$B!#(B
> $B@)8f%\!<%I$G(Bipmi$B$,;H$($k$J$i$P!"(Bipmi$B!#!#$H$$$C$?(Bstonith$B%j%=!<%9$r;H$C$F!"BP>]$N>c32%N!<%I$rMn$H$9(B(fencing)$B$9$k$3$H$,2DG=$G$9!#(B
> $B@)8f%\!<%I$r;}$?$J$$>l9g$G$"$l$P!"(Bssh$B$"$?$j$rMxMQ$9$k$3$H$K$J$j$^$9!#(B
> * stonith$B%j%=!<%9$K4X$7$F$O!"(Bstonith -L$B%3%^%s%I$GMxMQ2DG=$J(Bstonith$B%j%=!<%9$,I=<(2DG=$G$9!#(B
>
> stonith$B$N%0%k!<%W%j%=!<%9$H$7$F$O0J2<$N$h$&$J9=@.$,K>$^$7$$$H;W$$$^$9!#(B
>
> 1. stonith-helper ....stonith$B$r<B9T$9$kI,MW$,$"$k$+$I$&$+$r%A%'%C%/(B
> 2. ssh...$B<B:]$K(Bstonith$B$r<B9T$9$k!J<B5!$K$h$C$F$O!"(Bibmrsa-telnet$B$d(Briloe,ipmi)
> 3. meatware ...$B:G=*E*$K(Bstonith$B$K<:GT$7$?>l9g$NJ]<i<T$N2p:_$rB%$9(B
>
> $B$3$l$i$N(Bstonith$B$N%0%k!<%W%j%=!<%9$rA4$F$N%N!<%IKh$KMQ0U$7$F!"%?%9%-3]$1$GG[CV$9$k%$%a!<%8$K$J$j$^$9!#!J(Bclone$B$G$N [at] _D$O3d0&$7$^$9!K(B
>
> $B0J2<$K(Bcib.xml$B7A<0$G$9$,!"(Bstonith$B%0%k!<%W$N#1$D$NNc$H!"G[CV@)Ls$r5-:\$7$F$*$-$^$9!#(B
> $B$3$N$h$&$J(Bstonith$B$N%0%k!<%W%j%=!<%9$r%?%9%-3]$1$NG[CV$7$^$9!#(B
> #$B<B:]$N [at] _D$,:G?7$N(Bstonith$B$N%Q%i%a!<%?$K$"$C$F$$$k$+$I$&$+$O!":FEY!"$43NG'$/$@$5$$!#(B
>
> *$B!!(BgrpStonith1$B$O!"(Bsrv02$B$r(Bfencing$B$9$k0Y$N%j%=!<%9(B
> <group id="grpStonith1">
> <primitive class="stonith" id="prmStonith1-1" type="external/stonith-helper">
> <instance_attributes id="prmStonith1-1-instance_attributes">
> <nvpair id="prmStonith1-1-priority" name="priority" value="1"/>
> <nvpair id="prmStonith1-1-stonith-timeout" name="stonith-timeout" value="60s"/>
> <nvpair id="prmStonith1-1-hostlist" name="hostlist" value="srv02"/>
> <nvpair id="prmStonith1-1-dead_check_target" name="dead_check_target" value="192.168.40.20"/>
> <nvpair id="prmStonith1-1-run_standby_wait" name="run_standby_wait" value="no"/>
> </instance_attributes>
> <operations>
> <op id="prmStonith1-1-start" interval="0" name="start" timeout="60s"/>
> <op id="prmStonith1-1-monitor" interval="3600s" name="monitor" timeout="60s"/>
> <op id="prmStonith1-1-stop" interval="0" name="stop" timeout="60s"/>
> </operations>
> </primitive>
> <primitive class="stonith" id="prmStonith1-3" type="external/ssh">
> <instance_attributes id="prmStonith1-3-instance_attributes">
> <nvpair id="prmStonith1-3-priority" name="priority" value="3"/>
> <nvpair id="prmStonith1-3-stonith-timeout" name="stonith-timeout" value="60s"/>
> <nvpair id="prmStonith1-3-ip_address" name="hostlist" value="srv02"/>
> </instance_attributes>
> <operations>
> <op id="prmStonith1-3-start" interval="0" name="start" timeout="60s"/>
> <op id="prmStonith1-3-monitor" interval="3600s" name="monitor" timeout="60s"/>
> <op id="prmStonith1-3-stop" interval="0" name="stop" timeout="60s"/>
> </operations>
> </primitive>
> <primitive class="stonith" id="prmStonith1-4" type="meatware">
> <instance_attributes id="prmStonith1-4-instance_attributes">
> <nvpair id="prmStonith1-4-priority" name="priority" value="4"/>
> <nvpair id="prmStonith1-4-stonith-timeout" name="stonith-timeout" value="60s"/>
> <nvpair id="prmStonith1-4-hostlist" name="hostlist" value="srv02"/>
> </instance_attributes>
> <operations>
> <op id="prmStonith1-4-start" interval="0" name="start" timeout="60s"/>
> <op id="prmStonith1-4-monitor" interval="3600s" name="monitor" timeout="60s"/>
> <op id="prmStonith1-4-stop" interval="0" name="stop" timeout="60s"/>
> </operations>
> </primitive>
> </group>
> * grpStonith1$B$O(Bsrv02$B0J30$N%N!<%I$K(Bsrv01->srv03$B$NM%@hEY$GG[.CV$5$l$k!#(B
> <rsc_location id="location-grpStonith01-1" rsc="grpStonith1">
> <rule id="rule-grpStonith01-1" score="300">
> <expression id="exp-grpStonith01-1" attribute="#uname" operation="eq" value="srv01"/>
> </rule>
> <rule id="rule-grpStonith01-2" score="-INFINITY">
> <expression id="exp-grpStonith01-2" attribute="#uname" operation="eq" value="srv02"/>
> </rule>
> <rule id="rule-grpStonith01-3" score="200">
> <expression id="exp-grpStonith01-3" attribute="#uname" operation="eq" value="srv03"/>
> </rule>
> </rsc_location>
>
> quorum-policy$B$K4X$7$F$G$9$,!":FEY [at] 0}$7$F=q$+$;$FD:$/$H!#!#!#(B
> ignore....$B2?$b$7$^$;$s!#%/%i%9%?9=@.$,(Bquorum$BDj?t!J#2!\#1$N>l9g!"#2$h$j>.$5$/$J$C$?!K$rK~$?$5$J$/$J$C$F$b2?$b$7$^$;$s!#$h$C$F!"8IN)$7$?%N!<%I$b$=$N$^$^$G5/F0$7$F$$$^$9!#(B
>
> stop...quorum$BDj?t$rK~$?$5$J$$%N!<%I$O%j%=!<%9$rDd;_$7$F!"(Bquorum$BDj?t$rK~$?$99=@.$+$i(Bstonith$B$,<B9T$5$l$^$9!#$h$C$F!"8IN)$7$?%N!<%I$O(Bstonith$B$G%j%V!<%H$5$l$^$9!#(B
>
> freee...quorum$BDj?t$rK~$?$5$J$$%N!<%I$O2?$b$7$^$;$s!#$G$9$,!"(Bquorum$BDj?t$rK~$?$99=@.$+$i(Bstonith$B$,<B9T$5$l$^$9!#$h$C$F!"8IN)$7$?%N!<%I$O(Bstonith$B$G%j%V!<%H$5$l$^$9!#(B
>
> $BCm0U$9$kE@$O!"(Bstop$B$N>l9g$G$9$H!"A4%N!<%I$,8IN)$7$?>l9g$K$OA4$F(Bquorum$BDj?t$r>C<:$7$^$9$N$G!"%j%=!<%9$OA4%N!<%I$GDd;_$7$F%5!<%S%9Dd;_$,5/$-$^$9!#(B
> freeze$B$N>l9g$O>e5-$G$b!"%j%=!<%9$O5/F0$7$?$^$^$G$9$N$G!"%5!<%S%9$O2TF02DG=$G$9!#(B
>
> $B [at] _D$K4X$7$F$G$9$,!"(Bquorum-policy$B$O>e5-$r;29M$K [at] _D$7$F$$$?$@$/$H$7$F!"(Bstonith$B%0%k!<%W%j%=!<%9$r [at] _D$7$F$$$?$@$$$F$+$i!"(B
>
> property$B$G!"(Bstonith-enabled="true",startup-fencing="false"$B$H(B
> stonith-timeout="stonith$B%0%k!<%W%j%=!<%9$N7W;;>e$N=hM}$K$+$+$kIC?t(B"$B$r(B
> $B [at] _D$7$F$/$@$5$$!#(B
> #$B$H$j$"$($:!"(Bstonith-helper+ssh+meatware$B$G$"$l$P!"(Bstonith-timeout=430s$B$"$?$j$G==J,$+$H;W$$$^$9$,!"$3$N$"$?$j$O<B:]$NF0:n$GD4@0$7$F$/$@$5$$!#(B
>
> $B$^$?!"3F%j%=!<%9$N(Bon-fail$B [at] _D$G$9$,!"(B
>
> start,monitor$B$K4X$7$F$O!"(Brestart$B$GNI$$$H;W$$$^$9!#(B
>
> $B$^$?!"(Bstop$B$K4X$7$F$O!"(Bdiskd,pingd$B0J30$O(Bfence$B$GNI$$$H;W$$$^$9!#(B
> #$BDI2C$7$?(Bstonith$B%j%=!<%9$K$h$C$F!"(Bstop$B$K<:GT$9$k$H(Bfencing$BF0:n$,F~$j$^$9!#(B
> diskd,pingd$B$K4X$7$F$O!"(Bignore$B$GNI$$$H;W$$$^$9!#(B
>
> colocation$B$K4X$7$F$O!"A4$F(B1000$B$G$O$J$/(Binf$B$G(BOK$B$+$H;W$$$^$9!#(B
> $B!t2?$+0U?^$5$l$F$$$k$3$H$,$"$k$h$&$G$7$?$i!"(B1000$B$G9=$$$^$;$s$,!#!#!#!#(B
>
>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>
> $B0J>e$G$9!#(B
>
>
> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>
>> $B;3Fb$5$s(B
>>
>> $B$3$s$P$s$O!#(B
>> $BOBED$G$9!#(B
>>
>> $BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B
>>
>> $B$$$m$$$m$H [at] _D$N8+D>$7$,I,MW$=$&$G$9$M!#!#!#(B
>> $B$=$l$G$O!"L@F|!"$h$m$7$/$*4j$$CW$7$^$9!#(B
>>
>>> $BOBED$5$s(B
>>>
>>> $B$3$s$P$s$O!";3Fb$G$9!#(B
>>>
>>>> $BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B
>>>>
>>>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>>>
>>>> $B8=>u!"(Bignore $B$r [at] _D$7$F$$$^$9!#(B
>>>> $B!t(Bfreeze$B$K [at] _D$9$kI,MW$,$"$k$N$G$9$M!#!#!#(B
>>>
>>> $B$O$$!#(B
>>> $B4pK\E*$K$O!"J,CG$N@)8f$r(BPacemaker$B$K$5$;$k$N$G$"$l$P!"(Bfreeze($B$b$7$/$O(Bstop)$B$K [at] _D$9$kI,MW$,$"$j$^$9!#(B
>>>
>>>>
>>>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>>>
>>>> STONITH$B$N [at] _D$H$$$&$N$,!"==J,$KM}2r$G$-$F$$$J$$$N$G$9$,!"(B
>>>> stonith-helper$B$N$_$r [at] _D$9$l$P$h$$$N$G$7$g$&$+!)(B
>>>> $B$^$?!"(BN + 1$B9=@.$N>l9g$N [at] _Dj}K!$,$h$/$o$+$i$J$$$N$G$9$,!";29M$H$J$k(B
>>>> $B%5%$%HEy$r$465<($$$?$@$1$J$$$G$7$g$&$+!)(B
>>>
>>> $B$$$(!"(Bstonith-helper$B$NB>$K<B:]$K8IN)$7$?%N!<%I$rMn$H$90Y$N(Bstonith$B%j%=!<%9$,I,MW$K$J$j$^$9!#(B
>>> $B!t%5%$%H$J$I$OL@F|$4O"Mm$7$^$9$M!#(B
>>>
>>>>
>>>> $B$^$?!"(Bfreeze$B$H$$$&%-!<%o!<%I$r$b$H$K8!:w$7$?$H$3$m2a5n$N;3Fb$5$s$N(B
>>>> $B2sEz$K$?$I$jCe$$$?$N$G$9$,!"(B
>>>> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
>>>
>>> $B$O$$!#(B
>>>
>>>
>>>> 2:1$B$GJ,CG$5$l$?$H$-$K!"(B1$B$rDd;_$7$FLdBj$J$$$H$9$k$H!"(Bno-quorum-policy $B$r(B stop $B$K(B
>>>> $B [at] _D$9$k!#!J$3$N>l9g!"(BSTONITH$B$N [at] _D$O$7$J$/$F$b$h$$!#!K(B
>>>> $B$H$$$&M}2r$G$"$C$F$$$k$G$7$g$&$+!)(B
>>>
>>> $B$$$(!"$=$&$$$&$3$H$G$O$"$j$^$;$s!#(B
>>> $B#1$G%j%=!<%9$rDd;_$7$FLdBj$J$$$H$$$&$3$H$^$G$O@5$7$$$N$G$9$,!"$=$N8e!"(B1
>>> $B$r#2B&$+$iMn$H$9;v$,I,MW$K$J$j$^$9$N$G!"(BSTONITH$B$OI,MW$G$9!#(B
>>> $B!t$3$N$"$?$j$b$b$&>/$7>\:Y$KL@F|2sEz$7$^$9!#(B
>>>
>>>
>>>
>>>>
>>>> $BEjF~$7$?(Bcrm$B%U%!%$%k$r0J2<$K5-:\$7$^$9!#(B
>>>>
>>>> -------------------------------------------------------------------------------
>>>> primitive prmPing ocf:pacemaker:ping \
>>>> params \
>>>> name="ping_set" \
>>>> host_list="192.168.1.1 192.168.2.1" \
>>>> multiplier="100" \
>>>> dampen="0" \
>>>> meta \
>>>> migration-threshold="3" \
>>>> failure-timeout="60s" \
>>>> op start interval="0s" timeout="90s" on-fail="standby" \
>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>> op stop interval="0s" timeout="100s" on-fail="block"
>>>>
>>>> primitive prmApache ocf:heartbeat:apache \
>>>> params configfile="/etc/httpd/conf/httpd.conf" \
>>>> port="80" \
>>>> op start interval="0s" timeout="40s" on-fail="standby" \
>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>> op stop interval="0s" timeout="60s" on-fail="block"
>>>>
>>>> primitive prmDiskd ocf:pacemaker:diskd \
>>>> params name="diskd_set" \
>>>> device="/dev/sda1" \
>>>> op start interval="0s" timeout="60s" on-fail="standby" \
>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>> op stop interval="0s" timeout="60s" on-fail="block"
>>>>
>>>> clone clnApache prmApache \
>>>> meta clone-max="2" clone-node-max="1"
>>>>
>>>> clone clnPing prmPing \
>>>> meta clone-max="3" clone-node-max="1"
>>>>
>>>> clone clnDiskd prmDiskd \
>>>> meta clone-max="3" clone-node-max="1"
>>>>
>>>> location clnApache-location clnApache \
>>>> rule 200: #uname eq it08 \
>>>> rule 200: #uname eq it09 \
>>>> rule 100: #uname eq it10 \
>>>> rule -INFINITY: defined ping_set and ping_set lt 200 \
>>>> rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
>>>>
>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>>>> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
>>>> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
>>>>
>>>> property stonith-enabled="false" \
>>>> no-quorum-policy="stop"
>>>>
>>>> rsc_defaults resource-stickiness="INFINITY" \
>>>> migration-threshold="1"
>>>>
>>>> -------------------------------------------------------------------------------
>>>>
>>>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>
>>> STONITH$B$r [at] _D$7$?8e$G!"(Bapache$B$J$I$N(Bstop$B$N(Bon-fail$B$O(Bfence$B$K$7$FD:$$$?J}$,NI$$$G$9!#(B
>>> block$B$G$9$H!"$=$N$^$^%j%=!<%9Dd;_$K<:GT$7$?>uBV$G;_$^$C$F$7$^$$!"%j%=!<%9$ODd;_!J%5!<%S%9Dd;_!K$H$J$j$^$9!#(B
>>>
>>> $B$3$A$i$b [at] _D$K4X$7$F!"L@F|8+D>$7$F$5$i$K>\:Y$r$4O"Mm$$$?$7$^$9!#(B
>>>
>>> $B0J>e$G$9!#(B
>>>
>>>
>>>>
>>>>> $BOBED$5$s(B
>>>>>
>>>>> $B$3$s$K$A$O!";3Fb$G$9!#(B
>>>>>
>>>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>>>>
>>>>> $B$b$7!"8IN)$7$?#1%N!<%I$,8IN)$7$?;~E@$G!"%j%V!<%H$5$l$FLdBj$J$$$N$G$"$l$P!"DL>o(B
>>>>> freeze$B$J$I$N [at] _D$r9T$C$F$$$?$@$1$l$P!";D$j$N#2%N!<%IB&$+$i(Bstonith$B$,<B9T$5$l$^$9!#(B
>>>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>>>>
>>>>> $B$^$?!"$?$V$s!"8IN)$7$?%N!<%I$,;22C$7$h$&$H$O$7$F$$$k$O$:$G$9$,!"$J$s$i$+$NMW0x!J(BPacemaker$B$b$7$/$O(Bcorosync$B!K$G:F9=@.$r<h$l$J$$>u67$@$H;W$$$^$9!#(B
>>>>>
>>>>> $B3F%N!<%I$N%m%0!"(Bcib.xml($B$b$7$/$OEjF~$5$l$?(Bcrm$B%U%!%$%k!K$r3+<($7$F$$$?$@$1$l$P(B
>>>>> $B$b$&>/$7>\:Y$J2sEz$,2DG=$J$N$G$9$,!#!#!#(B
>>>>>
>>>>> $B!tM=CG$G$9$,!"(BPacemaker$B$G$OJ#?t%N!<%I9=@.;~$K%N!<%IJ,CG$+$i$N$=$N$^$^$NI|5l$O:#$N=j$&$^$/F0$-$^$;$s$N$G!"I,$:!"(BSTONITH$B$J$j%j%V!<%H$J$j$N<j=g$r9T$&$3$H$r$*4+$a$$$?$7$^$9!#(B
>>>>>
>>>>>
>>>>> $B0J>e$G$9!#(B
>>>>>
>>>>>
>>>>>
>>>>> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>>>>>
>>>>>> $BOBED$H?=$7$^$9!#(B
>>>>>> $B$O$8$a$^$7$F!#(B
>>>>>>
>>>>>> Corosync + Pacemaker + $B%"%W%j%1!<%7%g%s$G(B N + 1$B9=@.$r(B
>>>>>> $B:n@.$7$h$&$H$7$F$$$^$9!#(B
>>>>>> $B!t;CDjE*$K%"%W%j%1!<%7%g%s$O(B Apache $B$rMxMQ$7!"(BClone $B$rMQ$$$F(B
>>>>>> $B!t(B2 + 1$B9=@.$H$7$F$$$^$9!#(B
>>>>>>
>>>>>> $BDL>o$N>uBV$G$O!"(B2 + 1$B9=@.$rLdBj$J$/9=C[$9$k$3$H$,(B
>>>>>> $B$G$-$?$N$G$9$,!"%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?:]$K!"(B
>>>>>> $B%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?%5!<%P$N(B Current DC $B$,(B
>>>>>> $B<+J,<+?H$H$J$j!"2sI|$7$J$$>uBV$H$J$C$F$7$^$$$^$9!#(B
>>>>>>
>>>>>> $B$3$N$h$&$J>uBV$KH/@8$5$;$J$$J}K!!"$^$?$O!"(BCorosync $B$N(B restart $B$r(B
>>>>>> $B9T$o$:$K(B Current DC $B$rE}0l$9$kJ}K!$O$4$6$$$^$9$G$7$g$&$+!)(B
>>>>>>
>>>>>> $B$J$*!"%$%s%?%U%'!<%9$N>iD92=$O9T$C$F$*$j$^$;$s!#(B
>>>>>>
>>>>>> ------- $B@5>o;~(B $B$3$3$+$i(B ------------------
>>>>>> ============
>>>>>> Last updated: Tue Jan 17 15:27:22 2012
>>>>>> Stack: openais
>>>>>> Current DC: it09 - partition with quorum
>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>> 3 Nodes configured, 3 expected votes
>>>>>> 3 Resources configured.
>>>>>> ============
>>>>>>
>>>>>> Online: [ it08 it09 it10 ]
>>>>>>
>>>>>> Clone Set: clnApache
>>>>>> Started: [ it08 it09 ]
>>>>>> Clone Set: clnDiskd
>>>>>> Started: [ it08 it09 it10 ]
>>>>>> Clone Set: clnPing
>>>>>> Started: [ it08 it09 it10 ]
>>>>>> ------- $B@5>o;~(B $B$3$3$^$G(B ------------------
>>>>>>
>>>>>> ------- $B0[>o;~(B $B$3$3$+$i(B ------------------
>>>>>> ============
>>>>>> Last updated: Tue Jan 17 15:28:05 2012
>>>>>> Stack: openais
>>>>>> Current DC: it09 - partition with quorum
>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>> 3 Nodes configured, 3 expected votes
>>>>>> 3 Resources configured.
>>>>>> ============
>>>>>>
>>>>>> Online: [ it08 it09 ]
>>>>>> OFFLINE: [ it10 ]
>>>>>>
>>>>>> Clone Set: clnApache
>>>>>> Started: [ it08 it09 ]
>>>>>> Clone Set: clnDiskd
>>>>>> Started: [ it08 it09 ]
>>>>>> Stopped: [ prmDiskd:2 ]
>>>>>> Clone Set: clnPing
>>>>>> Started: [ it08 it09 ]
>>>>>> Stopped: [ prmPing:2 ]
>>>>>> ------------------------------------------
>>>>>> ============
>>>>>> Last updated: Tue Jan 17 16:18:28 2012
>>>>>> Stack: openais
>>>>>> Current DC: it10 - partition WITHOUT quorum
>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>> 3 Nodes configured, 3 expected votes
>>>>>> 3 Resources configured.
>>>>>> ============
>>>>>>
>>>>>> Online: [ it10 ]
>>>>>> OFFLINE: [ it08 it09 ]
>>>>>>
>>>>>> Clone Set: clnApache
>>>>>> Started: [ it10 ]
>>>>>> Stopped: [ prmApache:1 ]
>>>>>> Clone Set: clnDiskd
>>>>>> Started: [ it10 ]
>>>>>> Stopped: [ prmDiskd:0 prmDiskd:1 ]
>>>>>> Clone Set: clnPing
>>>>>> Started: [ it10 ]
>>>>>> Stopped: [ prmPing:0 prmPing:1 ]
>>>>>> ------- $B0[>o;~(B $B$3$3$^$G(B ------------------
>>>>>>
>>>>>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>>>>
>>>>>> _______________________________________________
>>>>>> Linux-ha-japan mailing list
>>>>>> Linux-ha-japan [at] lists
>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Linux-ha-japan mailing list
>>>>> Linux-ha-japan [at] lists
>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>
>>>> ___________# crm configure____________________________________
>>>> Linux-ha-japan mailing list
>>>> Linux-ha-japan [at] lists
>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>
>>>
>>> _______________________________________________
>>> Linux-ha-japan mailing list
>>> Linux-ha-japan [at] lists
>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux-ha-japan [at] lists
>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


renayama19661014 at ybb

Jan 17, 2012, 7:55 PM

Post #8 of 10 (617 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

和田さん

こんにちは。山内です。

> 丁寧なご説明ありがとうございました。
>
> > 1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> > 2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> > 3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
>
> この方法で、リブートできることまで確認ができました。
> ただ、リソースを登録したときに、
>
> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
>
> というようなメッセージが表示されました。
>
> http://linux-ha.sourceforge.jp/wp/archives/1809/3
> には「STONITHを設定していない場合(stonith-enabled=”false”)、上記のエラーが出力されますが
> 今回は無視してください。」とあります。
> stonith-enabled="true"は設定しています。
>
> 特に問題ないメッセージなのでしょうか?
> それとも設定に不足があるのでしょうか。。。?

正確には、[STONITH]を設定していない場合ではなくて、startup-fencing=falseの場合にここの警告メッセージが出力されます。
ですが、問題はありませんので無視していただいて結構です。

> また、サーバがSTONITHによってリブートされた後、リブートされたサーバで動作していた
> STONITHの設定が、(当たり前ですが)ほかのサーバに移動しました。
> これを元に戻すには手動で移動するようになるのでしょうか?

はい。手動でリブートした(復帰した)ノードにSTONITHのグループリソースは戻す必要があります。
もし、cloneでSTONITHリソースグループをお使いになられるのでしたら、当然、戻す必要はありませんが。。。。

>
> > start,monitorに関しては、restartで良いと思います。
> >
> > また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> > #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> > diskd,pingdに関しては、ignoreで良いと思います。
>
> ACT/SBYの構成で確認した際に、restartに設定したgroup内に複数のリソースがあった場合、
> group内の最後のリソース以外に異常が発生した場合、うまく切り替わらなかったため
> standbyに設定していました。
> 今回、いろいろとやり取りをさせていただいて、stop の on-fail が "block" になって
> いたからではないかと推測しています。
> STONITHの設定も含めて、ご指摘頂いた方向で見直したいと思います。

よろしく御願いします。


> > colocationに関しては、全て1000ではなくinfでOKかと思います。
> > #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >
> >>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>
> はい、そうですね。。。意図はないです。
> INFINITYにしたいと思います。

はい。その方が良いと思います。

以上です。


--- On Wed, 2012/1/18, 和田 伸一朗 <wada.shinichiro [at] jp> wrote:

> 山内さん
>
> こんにちは。
> 和田です。
>
> 丁寧なご説明ありがとうございました。
>
> >   1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> >   2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> >   3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
>
> この方法で、リブートできることまで確認ができました。
> ただ、リソースを登録したときに、
>
> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
>
> というようなメッセージが表示されました。
>
> http://linux-ha.sourceforge.jp/wp/archives/1809/3
> には「STONITHを設定していない場合(stonith-enabled=”false”)、上記のエラーが出力されますが
> 今回は無視してください。」とあります。
> stonith-enabled="true"は設定しています。
>
> 特に問題ないメッセージなのでしょうか?
> それとも設定に不足があるのでしょうか。。。?
>
> また、サーバがSTONITHによってリブートされた後、リブートされたサーバで動作していた
> STONITHの設定が、(当たり前ですが)ほかのサーバに移動しました。
> これを元に戻すには手動で移動するようになるのでしょうか?
>
> > start,monitorに関しては、restartで良いと思います。
> >
> > また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> > #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> > diskd,pingdに関しては、ignoreで良いと思います。
>
> ACT/SBYの構成で確認した際に、restartに設定したgroup内に複数のリソースがあった場合、
> group内の最後のリソース以外に異常が発生した場合、うまく切り替わらなかったため
> standbyに設定していました。
> 今回、いろいろとやり取りをさせていただいて、stop の on-fail が "block" になって
> いたからではないかと推測しています。
> STONITHの設定も含めて、ご指摘頂いた方向で見直したいと思います。
>
> > colocationに関しては、全て1000ではなくinfでOKかと思います。
> > #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >
> >>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>
> はい、そうですね。。。意図はないです。
> INFINITYにしたいと思います。
>
> よろしくお願い致します。
>
> > 和田さん
> >
> > おはようございます。山内です。
> >
> > 先日の件、回答いたします。
> >
> > stonithの設定に関しては、本家だと
> >   * http://www.clusterlabs.org/doc/crm_fencing.html
> > のあたりにありますが、わかりずらいかと思います。
> >
> > 基本的には、N+1ノードの場合であれば、それぞれのノードに他の1ノードをstonith出来るようなstonithのリソースグループをタスキ掛けに配置して、自ノード分のstonithは配置出来ないような設定をすることが良いと思います。
> > (stonithで利用するリソースによっては、cloneで配置することも可能です)
> >
> > 制御ボードを持ったクラスタを構成する実機がIBMであれば、ibmrsa-telnet。
> > HPであれば、riloe。
> > 制御ボードでipmiが使えるならば、ipmi。。といったstonithリソースを使って、対象の障害ノードを落とす(fencing)することが可能です。
> > 制御ボードを持たない場合であれば、sshあたりを利用することになります。
> >   * stonithリソースに関しては、stonith -Lコマンドで利用可能なstonithリソースが表示可能です。
> >
> > stonithのグループリソースとしては以下のような構成が望ましいと思います。
> >
> >   1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> >   2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> >   3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
> >
> > これらのstonithのグループリソースを全てのノード毎に用意して、タスキ掛けで配置するイメージになります。(cloneでの設定は割愛します)
> >
> > 以下にcib.xml形式ですが、stonithグループの1つの例と、配置制約を記載しておきます。
> > このようなstonithのグループリソースをタスキ掛けの配置します。
> > #実際の設定が最新のstonithのパラメータにあっているかどうかは、再度、ご確認ください。
> >
> >   * grpStonith1は、srv02をfencingする為のリソース
> >        <group id="grpStonith1">
> >          <primitive class="stonith" id="prmStonith1-1" type="external/stonith-helper">
> >            <instance_attributes id="prmStonith1-1-instance_attributes">
> >            <nvpair id="prmStonith1-1-priority" name="priority" value="1"/>
> >              <nvpair id="prmStonith1-1-stonith-timeout" name="stonith-timeout" value="60s"/>
> >              <nvpair id="prmStonith1-1-hostlist" name="hostlist" value="srv02"/>
> >              <nvpair id="prmStonith1-1-dead_check_target" name="dead_check_target" value="192.168.40.20"/>
> >              <nvpair id="prmStonith1-1-run_standby_wait" name="run_standby_wait" value="no"/>
> >            </instance_attributes>
> >            <operations>
> >              <op id="prmStonith1-1-start" interval="0" name="start" timeout="60s"/>
> >              <op id="prmStonith1-1-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >              <op id="prmStonith1-1-stop" interval="0" name="stop" timeout="60s"/>
> >            </operations>
> >          </primitive>
> >          <primitive class="stonith" id="prmStonith1-3" type="external/ssh">
> >            <instance_attributes id="prmStonith1-3-instance_attributes">
> >              <nvpair id="prmStonith1-3-priority" name="priority" value="3"/>
> >              <nvpair id="prmStonith1-3-stonith-timeout" name="stonith-timeout" value="60s"/>
> >              <nvpair id="prmStonith1-3-ip_address" name="hostlist" value="srv02"/>
> >            </instance_attributes>
> >            <operations>
> >              <op id="prmStonith1-3-start" interval="0" name="start" timeout="60s"/>
> >              <op id="prmStonith1-3-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >              <op id="prmStonith1-3-stop" interval="0" name="stop" timeout="60s"/>
> >            </operations>
> >          </primitive>
> >          <primitive class="stonith" id="prmStonith1-4" type="meatware">
> >            <instance_attributes id="prmStonith1-4-instance_attributes">
> >              <nvpair id="prmStonith1-4-priority" name="priority" value="4"/>
> >              <nvpair id="prmStonith1-4-stonith-timeout" name="stonith-timeout" value="60s"/>
> >              <nvpair id="prmStonith1-4-hostlist" name="hostlist" value="srv02"/>
> >            </instance_attributes>
> >            <operations>
> >              <op id="prmStonith1-4-start" interval="0" name="start" timeout="60s"/>
> >              <op id="prmStonith1-4-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >              <op id="prmStonith1-4-stop" interval="0" name="stop" timeout="60s"/>
> >            </operations>
> >          </primitive>
> >        </group>
> >   * grpStonith1はsrv02以外のノードにsrv01->srv03の優先度で配置される。
> >        <rsc_location id="location-grpStonith01-1" rsc="grpStonith1">
> >          <rule id="rule-grpStonith01-1" score="300">
> >            <expression id="exp-grpStonith01-1" attribute="#uname" operation="eq" value="srv01"/>
> >          </rule>
> >          <rule id="rule-grpStonith01-2" score="-INFINITY">
> >            <expression id="exp-grpStonith01-2" attribute="#uname" operation="eq" value="srv02"/>
> >          </rule>
> >          <rule id="rule-grpStonith01-3" score="200">
> >            <expression id="exp-grpStonith01-3" attribute="#uname" operation="eq" value="srv03"/>
> >          </rule>
> >        </rsc_location>
> >
> > quorum-policyに関してですが、再度整理して書かせて頂くと。。。
> > ignore....何もしません。クラスタ構成がquorum定数(2+1の場合、2より小さくなった)を満たさなくなっても何もしません。よって、孤立したノードもそのままで起動しています。
> >
> > stop...quorum定数を満たさないノードはリソースを停止して、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。
> >
> > freee...quorum定数を満たさないノードは何もしません。ですが、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。
> >
> > 注意する点は、stopの場合ですと、全ノードが孤立した場合には全てquorum定数を消失しますので、リソースは全ノードで停止してサービス停止が起きます。
> > freezeの場合は上記でも、リソースは起動したままですので、サービスは稼動可能です。
> >
> > 設定に関してですが、quorum-policyは上記を参考に設定していただくとして、stonithグループリソースを設定していただいてから、
> >
> > propertyで、stonith-enabled="true",startup-fencing="false"と
> > stonith-timeout="stonithグループリソースの計算上の処理にかかる秒数"を
> > 設定してください。
> > #とりあえず、stonith-helper+ssh+meatwareであれば、stonith-timeout=430sあたりで十分かと思いますが、このあたりは実際の動作で調整してください。
> >
> > また、各リソースのon-fail設定ですが、
> >
> > start,monitorに関しては、restartで良いと思います。
> >
> > また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> > #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> > diskd,pingdに関しては、ignoreで良いと思います。
> >
> > colocationに関しては、全て1000ではなくinfでOKかと思います。
> > #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >
> >>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >
> > 以上です。
> >
> >
> > --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>  wrote:
> >
> >> 山内さん
> >>
> >> こんばんは。
> >> 和田です。
> >>
> >> 早々のご回答ありがとうございます。
> >>
> >> いろいろと設定の見直しが必要そうですね。。。
> >> それでは、明日、よろしくお願い致します。
> >>
> >>> 和田さん
> >>>
> >>> こんばんは、山内です。
> >>>
> >>>> 早々のご回答ありがとうございます。
> >>>>
> >>>>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>>>
> >>>> 現状、ignore を設定しています。
> >>>> #freezeに設定する必要があるのですね。。。
> >>>
> >>> はい。
> >>> 基本的には、分断の制御をPacemakerにさせるのであれば、freeze(もしくはstop)に設定する必要があります。
> >>>
> >>>>
> >>>>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>>>
> >>>> STONITHの設定というのが、十分に理解できていないのですが、
> >>>> stonith-helperのみを設定すればよいのでしょうか?
> >>>> また、N + 1構成の場合の設定方法がよくわからないのですが、参考となる
> >>>> サイト等をご教示いただけないでしょうか?
> >>>
> >>> いえ、stonith-helperの他に実際に孤立したノードを落とす為のstonithリソースが必要になります。
> >>> #サイトなどは明日ご連絡しますね。
> >>>
> >>>>
> >>>> また、freezeというキーワードをもとに検索したところ過去の山内さんの
> >>>> 回答にたどり着いたのですが、
> >>>> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
> >>>
> >>> はい。
> >>>
> >>>
> >>>> 2:1で分断されたときに、1を停止して問題ないとすると、no-quorum-policy を stop に
> >>>> 設定する。(この場合、STONITHの設定はしなくてもよい。)
> >>>> という理解であっているでしょうか?
> >>>
> >>> いえ、そういうことではありません。
> >>> 1でリソースを停止して問題ないということまでは正しいのですが、その後、1
> >>> を2側から落とす事が必要になりますので、STONITHは必要です。
> >>> #このあたりももう少し詳細に明日回答します。
> >>>
> >>>
> >>>
> >>>>
> >>>> 投入したcrmファイルを以下に記載します。
> >>>>
> >>>> -------------------------------------------------------------------------------
> >>>> primitive prmPing ocf:pacemaker:ping \
> >>>>             params \
> >>>>                     name="ping_set" \
> >>>>                     host_list="192.168.1.1 192.168.2.1" \
> >>>>                     multiplier="100" \
> >>>>                     dampen="0" \
> >>>>             meta \
> >>>>                     migration-threshold="3" \
> >>>>                     failure-timeout="60s" \
> >>>>             op start interval="0s" timeout="90s" on-fail="standby" \
> >>>>             op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>             op stop interval="0s" timeout="100s" on-fail="block"
> >>>>
> >>>> primitive prmApache ocf:heartbeat:apache \
> >>>>             params configfile="/etc/httpd/conf/httpd.conf" \
> >>>>             port="80" \
> >>>>             op start interval="0s" timeout="40s" on-fail="standby" \
> >>>>             op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>             op stop interval="0s" timeout="60s" on-fail="block"
> >>>>
> >>>> primitive prmDiskd ocf:pacemaker:diskd \
> >>>>             params name="diskd_set" \
> >>>>             device="/dev/sda1" \
> >>>>             op start interval="0s" timeout="60s" on-fail="standby" \
> >>>>             op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>             op stop interval="0s" timeout="60s" on-fail="block"
> >>>>
> >>>> clone clnApache prmApache \
> >>>>             meta clone-max="2" clone-node-max="1"
> >>>>
> >>>> clone clnPing prmPing \
> >>>>             meta clone-max="3" clone-node-max="1"
> >>>>
> >>>> clone clnDiskd prmDiskd \
> >>>>             meta clone-max="3" clone-node-max="1"
> >>>>
> >>>> location clnApache-location clnApache \
> >>>>             rule 200: #uname eq it08 \
> >>>>             rule 200: #uname eq it09 \
> >>>>             rule 100: #uname eq it10 \
> >>>>             rule -INFINITY: defined ping_set and ping_set lt 200 \
> >>>>             rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
> >>>>
> >>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >>>> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
> >>>> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
> >>>>
> >>>> property stonith-enabled="false" \
> >>>>             no-quorum-policy="stop"
> >>>>
> >>>> rsc_defaults resource-stickiness="INFINITY" \
> >>>>             migration-threshold="1"
> >>>>
> >>>> -------------------------------------------------------------------------------
> >>>>
> >>>> よろしくお願い致します。
> >>>
> >>> STONITHを設定した後で、apacheなどのstopのon-failはfenceにして頂いた方が良いです。
> >>> blockですと、そのままリソース停止に失敗した状態で止まってしまい、リソースは停止(サービス停止)となります。
> >>>
> >>> こちらも設定に関して、明日見直してさらに詳細をご連絡いたします。
> >>>
> >>> 以上です。
> >>>
> >>>
> >>>>
> >>>>> 和田さん
> >>>>>
> >>>>> こんにちは、山内です。
> >>>>>
> >>>>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>>>>
> >>>>> もし、孤立した1ノードが孤立した時点で、リブートされて問題ないのであれば、通常
> >>>>> freezeなどの設定を行っていただければ、残りの2ノード側からstonithが実行されます。
> >>>>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>>>>
> >>>>> また、たぶん、孤立したノードが参加しようとはしているはずですが、なんらかの要因(Pacemakerもしくはcorosync)で再構成を取れない状況だと思います。
> >>>>>
> >>>>> 各ノードのログ、cib.xml(もしくは投入されたcrmファイル)を開示していただければ
> >>>>> もう少し詳細な回答が可能なのですが。。。
> >>>>>
> >>>>> #予断ですが、Pacemakerでは複数ノード構成時にノード分断からのそのままの復旧は今の所うまく動きませんので、必ず、STONITHなりリブートなりの手順を行うことをお勧めいたします。
> >>>>>
> >>>>>
> >>>>> 以上です。
> >>>>>
> >>>>>
> >>>>>
> >>>>> --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>    wrote:
> >>>>>
> >>>>>> 和田と申します。
> >>>>>> はじめまして。
> >>>>>>
> >>>>>> Corosync + Pacemaker + アプリケーションで N + 1構成を
> >>>>>> 作成しようとしています。
> >>>>>> #暫定的にアプリケーションは Apache を利用し、Clone を用いて
> >>>>>> #2 + 1構成としています。
> >>>>>>
> >>>>>> 通常の状態では、2 + 1構成を問題なく構築することが
> >>>>>> できたのですが、インタフェースの down / up を行った際に、
> >>>>>> インタフェースの down / up を行ったサーバの Current DC が
> >>>>>> 自分自身となり、回復しない状態となってしまいます。
> >>>>>>
> >>>>>> このような状態に発生させない方法、または、Corosync の restart を
> >>>>>> 行わずに Current DC を統一する方法はございますでしょうか?
> >>>>>>
> >>>>>> なお、インタフェースの冗長化は行っておりません。
> >>>>>>
> >>>>>> ------- 正常時 ここから ------------------
> >>>>>> ============
> >>>>>> Last updated: Tue Jan 17 15:27:22 2012
> >>>>>> Stack: openais
> >>>>>> Current DC: it09 - partition with quorum
> >>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>> 3 Nodes configured, 3 expected votes
> >>>>>> 3 Resources configured.
> >>>>>> ============
> >>>>>>
> >>>>>> Online: [ it08 it09 it10 ]
> >>>>>>
> >>>>>>       Clone Set: clnApache
> >>>>>>           Started: [ it08 it09 ]
> >>>>>>       Clone Set: clnDiskd
> >>>>>>           Started: [ it08 it09 it10 ]
> >>>>>>       Clone Set: clnPing
> >>>>>>           Started: [ it08 it09 it10 ]
> >>>>>> ------- 正常時 ここまで ------------------
> >>>>>>
> >>>>>> ------- 異常時 ここから ------------------
> >>>>>> ============
> >>>>>> Last updated: Tue Jan 17 15:28:05 2012
> >>>>>> Stack: openais
> >>>>>> Current DC: it09 - partition with quorum
> >>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>> 3 Nodes configured, 3 expected votes
> >>>>>> 3 Resources configured.
> >>>>>> ============
> >>>>>>
> >>>>>> Online: [ it08 it09 ]
> >>>>>> OFFLINE: [ it10 ]
> >>>>>>
> >>>>>>       Clone Set: clnApache
> >>>>>>           Started: [ it08 it09 ]
> >>>>>>       Clone Set: clnDiskd
> >>>>>>           Started: [ it08 it09 ]
> >>>>>>           Stopped: [ prmDiskd:2 ]
> >>>>>>       Clone Set: clnPing
> >>>>>>           Started: [ it08 it09 ]
> >>>>>>           Stopped: [ prmPing:2 ]
> >>>>>> ------------------------------------------
> >>>>>> ============
> >>>>>> Last updated: Tue Jan 17 16:18:28 2012
> >>>>>> Stack: openais
> >>>>>> Current DC: it10 - partition WITHOUT quorum
> >>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>> 3 Nodes configured, 3 expected votes
> >>>>>> 3 Resources configured.
> >>>>>> ============
> >>>>>>
> >>>>>> Online: [ it10 ]
> >>>>>> OFFLINE: [ it08 it09 ]
> >>>>>>
> >>>>>>       Clone Set: clnApache
> >>>>>>           Started: [ it10 ]
> >>>>>>           Stopped: [ prmApache:1 ]
> >>>>>>       Clone Set: clnDiskd
> >>>>>>           Started: [ it10 ]
> >>>>>>           Stopped: [ prmDiskd:0 prmDiskd:1 ]
> >>>>>>       Clone Set: clnPing
> >>>>>>           Started: [ it10 ]
> >>>>>>           Stopped: [ prmPing:0 prmPing:1 ]
> >>>>>> ------- 異常時 ここまで ------------------
> >>>>>>
> >>>>>> よろしくお願い致します。
> >>>>>>
> >>>>>> _______________________________________________
> >>>>>> Linux-ha-japan mailing list
> >>>>>> Linux-ha-japan [at] lists
> >>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>>>
> >>>>>
> >>>>> _______________________________________________
> >>>>> Linux-ha-japan mailing list
> >>>>> Linux-ha-japan [at] lists
> >>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>> ___________# crm configure____________________________________
> >>>> Linux-ha-japan mailing list
> >>>> Linux-ha-japan [at] lists
> >>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>
> >>> _______________________________________________
> >>> Linux-ha-japan mailing list
> >>> Linux-ha-japan [at] lists
> >>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >> _______________________________________________
> >> Linux-ha-japan mailing list
> >> Linux-ha-japan [at] lists
> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux-ha-japan [at] lists
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


wada.shinichiro at jp

Jan 17, 2012, 8:23 PM

Post #9 of 10 (586 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

$B;3Fb$5$s(B

$B$3$s$K$A$O!#(B
$BOBED$G$9!#(B

$B$$$m$$$m$HCzG+$J$4 [at] b@$"$j$,$H$&$4$6$$$^$7$?!#(B

$B$*$+$2$G$b$d$b$d$7$F$$$?$H$3$m$b$@$$$V$9$C$-$j$7$^$7$?!#(B
$B$465<($$$?$@$$$?FbMF$r$b$H$K8!>Z$r?J$a$F$$$-$?$$$H;W$$$^$9!#(B

$B$"$j$,$H$&$4$6$$$^$7$?!#(B

> $BOBED$5$s(B
>
> $B$3$s$K$A$O!#;3Fb$G$9!#(B
>
>> $BCzG+$J$4 [at] b@$"$j$,$H$&$4$6$$$^$7$?!#(B
>>
>>> 1. stonith-helper ....stonith$B$r<B9T$9$kI,MW$,$"$k$+$I$&$+$r%A%'%C%/(B
>>> 2. ssh...$B<B:]$K(Bstonith$B$r<B9T$9$k!J<B5!$K$h$C$F$O!"(Bibmrsa-telnet$B$d(Briloe,ipmi)
>>> 3. meatware ...$B:G=*E*$K(Bstonith$B$K<:GT$7$?>l9g$NJ]<i<T$N2p:_$rB%$9(B
>>
>> $B$3$NJ}K!$G!"%j%V!<%H$G$-$k$3$H$^$G3NG'$,$G$-$^$7$?!#(B
>> $B$?$@!"%j%=!<%9$rEPO?$7$?$H$-$K!"(B
>>
>> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
>>
>> $B$H$$$&$h$&$J%a%C%;!<%8$,I=<($5$l$^$7$?!#(B
>>
>> http://linux-ha.sourceforge.jp/wp/archives/1809/3
>> $B$K$O!V(BSTONITH$B$r [at] _D$7$F$$$J$$>l9g(B(stonith-enabled=$B!I(Bfalse$B!I(B)$B!">e5-$N%(%i!<$,=PNO$5$l$^$9$,(B
>> $B:#2s$OL5;k$7$F$/$@$5$$!#!W$H$"$j$^$9!#(B
>> stonith-enabled="true"$B$O [at] _D$7$F$$$^$9!#(B
>>
>> $BFC$KLdBj$J$$%a%C%;!<%8$J$N$G$7$g$&$+!)(B
>> $B$=$l$H$b [at] _D$KITB-$,$"$k$N$G$7$g$&$+!#!#!#!)(B
>
> $B [at] 53$K$O!"(B[STONITH]$B$r [at] _D$7$F$$$J$$>l9g$G$O$J$/$F!"(Bstartup-fencing=false$B$N>l9g$K$3$3$N7Y9p%a%C%;!<%8$,=PNO$5$l$^$9!#(B
> $B$G$9$,!"LdBj$O$"$j$^$;$s$N$GL5;k$7$F$$$?$@$$$F7k9=$G$9!#(B
>
>> $B$^$?!"%5!<%P$,(BSTONITH$B$K$h$C$F%j%V!<%H$5$l$?8e!"%j%V!<%H$5$l$?%5!<%P$GF0:n$7$F$$$?(B
>> STONITH$B$N [at] _D$,!"(B($BEv$?$jA0$G$9$,(B)$B$[$+$N%5!<%P$K0\F0$7$^$7$?!#(B
>> $B$3$l$r85$KLa$9$K$O<jF0$G0\F0$9$k$h$&$K$J$k$N$G$7$g$&$+!)(B
>
> $B$O$$!#<jF0$G%j%V!<%H$7$?!JI|5"$7$?!K%N!<%I$K(BSTONITH$B$N%0%k!<%W%j%=!<%9$OLa$9I,MW$,$"$j$^$9!#(B
> $B$b$7!"(Bclone$B$G(BSTONITH$B%j%=!<%9%0%k!<%W$r$*;H$$$K$J$i$l$k$N$G$7$?$i!"EvA3!"La$9I,MW$O$"$j$^$;$s$,!#!#!#!#(B
>
>>
>>> start,monitor$B$K4X$7$F$O!"(Brestart$B$GNI$$$H;W$$$^$9!#(B
>>>
>>> $B$^$?!"(Bstop$B$K4X$7$F$O!"(Bdiskd,pingd$B0J30$O(Bfence$B$GNI$$$H;W$$$^$9!#(B
>>> #$BDI2C$7$?(Bstonith$B%j%=!<%9$K$h$C$F!"(Bstop$B$K<:GT$9$k$H(Bfencing$BF0:n$,F~$j$^$9!#(B
>>> diskd,pingd$B$K4X$7$F$O!"(Bignore$B$GNI$$$H;W$$$^$9!#(B
>>
>> ACT/SBY$B$N9=@.$G3NG'$7$?:]$K!"(Brestart$B$K [at] _D$7$?(Bgroup$BFb$KJ#?t$N%j%=!<%9$,$"$C$?>l9g!"(B
>> group$BFb$N:G8e$N%j%=!<%90J30$K0[.>o$,H/@8$7$?>l9g!"$&$^$/@Z$jBX$o$i$J$+$C$?$?$a(B
>> standby$B$K [at] _D$7$F$$$^$7$?!#(B
>> $B:#2s!"$$$m$$$m$H$d$j<h$j$r$5$;$F$$$?$@$$$F!"(Bstop $B$N(B on-fail $B$,(B "block" $B$K$J$C$F(B
>> $B$$$?$+$i$G$O$J$$$+$H?dB,$7$F$$$^$9!#(B
>> STONITH$B$N [at] _D$b4^$a$F!"$4;XE&D:$$$?J}8~$G8+D>$7$?$$$H;W$$$^$9!#(B
>
> $B$h$m$7$/8f4j$$$7$^$9!#(B
>
>
>>> colocation$B$K4X$7$F$O!"A4$F(B1000$B$G$O$J$/(Binf$B$G(BOK$B$+$H;W$$$^$9!#(B
>>> $B!t2?$+0U?^$5$l$F$$$k$3$H$,$"$k$h$&$G$7$?$i!"(B1000$B$G9=$$$^$;$s$,!#!#!#!#(B
>>>
>>>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>>
>> $B$O$$!"$=$&$G$9$M!#!#!#0U?^$O$J$$$G$9!#(B
>> INFINITY$B$K$7$?$$$H;W$$$^$9!#(B
>
> $B$O$$!#$=$NJ}$,NI$$$H;W$$$^$9!#(B
>
> $B0J>e$G$9!#(B
>
>
> --- On Wed, 2012/1/18, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>
>> $B;3Fb$5$s(B
>>
>> $B$3$s$K$A$O!#(B
>> $BOBED$G$9!#(B
>>
>> $BCzG+$J$4 [at] b@$"$j$,$H$&$4$6$$$^$7$?!#(B
>>
>>> 1. stonith-helper ....stonith$B$r<B9T$9$kI,MW$,$"$k$+$I$&$+$r%A%'%C%/(B
>>> 2. ssh...$B<B:]$K(Bstonith$B$r<B9T$9$k!J<B5!$K$h$C$F$O!"(Bibmrsa-telnet$B$d(Briloe,ipmi)
>>> 3. meatware ...$B:G=*E*$K(Bstonith$B$K<:GT$7$?>l9g$NJ]<i<T$N2p:_$rB%$9(B
>>
>> $B$3$NJ}K!$G!"%j%V!<%H$G$-$k$3$H$^$G3NG'$,$G$-$^$7$?!#(B
>> $B$?$@!"%j%=!<%9$rEPO?$7$?$H$-$K!"(B
>>
>> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
>>
>> $B$H$$$&$h$&$J%a%C%;!<%8$,I=<($5$l$^$7$?!#(B
>>
>> http://linux-ha.sourceforge.jp/wp/archives/1809/3
>> $B$K$O!V(BSTONITH$B$r [at] _D$7$F$$$J$$>l9g(B(stonith-enabled=$B!I(Bfalse$B!I(B)$B!">e5-$N%(%i!<$,=PNO$5$l$^$9$,(B
>> $B:#2s$OL5;k$7$F$/$@$5$$!#!W$H$"$j$^$9!#(B
>> stonith-enabled="true"$B$O [at] _D$7$F$$$^$9!#(B
>>
>> $BFC$KLdBj$J$$%a%C%;!<%8$J$N$G$7$g$&$+!)(B
>> $B$=$l$H$b [at] _D$KITB-$,$"$k$N$G$7$g$&$+!#!#!#!)(B
>>
>> $B$^$?!"%5!<%P$,(BSTONITH$B$K$h$C$F%j%V!<%H$5$l$?8e!"%j%V!<%H$5$l$?%5!<%P$GF0:n$7$F$$$?(B
>> STONITH$B$N [at] _D$,!"(B($BEv$?$jA0$G$9$,(B)$B$[$+$N%5!<%P$K0\F0$7$^$7$?!#(B
>> $B$3$l$r85$KLa$9$K$O<jF0$G0\F0$9$k$h$&$K$J$k$N$G$7$g$&$+!)(B
>>
>>> start,monitor$B$K4X$7$F$O!"(Brestart$B$GNI$$$H;W$$$^$9!#(B
>>>
>>> $B$^$?!"(Bstop$B$K4X$7$F$O!"(Bdiskd,pingd$B0J30$O(Bfence$B$GNI$$$H;W$$$^$9!#(B
>>> #$BDI2C$7$?(Bstonith$B%j%=!<%9$K$h$C$F!"(Bstop$B$K<:GT$9$k$H(Bfencing$BF0:n$,F~$j$^$9!#(B
>>> diskd,pingd$B$K4X$7$F$O!"(Bignore$B$GNI$$$H;W$$$^$9!#(B
>>
>> ACT/SBY$B$N9=@.$G3NG'$7$?:]$K!"(Brestart$B$K [at] _D$7$?(Bgroup$BFb$KJ#?t$N%j%=!<%9$,$"$C$?>l9g!"(B
>> group$BFb$N:G8e$N%j%=!<%90J30$K0[.>o$,H/@8$7$?>l9g!"$&$^$/@Z$jBX$o$i$J$+$C$?$?$a(B
>> standby$B$K [at] _D$7$F$$$^$7$?!#(B
>> $B:#2s!"$$$m$$$m$H$d$j<h$j$r$5$;$F$$$?$@$$$F!"(Bstop $B$N(B on-fail $B$,(B "block" $B$K$J$C$F(B
>> $B$$$?$+$i$G$O$J$$$+$H?dB,$7$F$$$^$9!#(B
>> STONITH$B$N [at] _D$b4^$a$F!"$4;XE&D:$$$?J}8~$G8+D>$7$?$$$H;W$$$^$9!#(B
>>
>>> colocation$B$K4X$7$F$O!"A4$F(B1000$B$G$O$J$/(Binf$B$G(BOK$B$+$H;W$$$^$9!#(B
>>> $B!t2?$+0U?^$5$l$F$$$k$3$H$,$"$k$h$&$G$7$?$i!"(B1000$B$G9=$$$^$;$s$,!#!#!#!#(B
>>>
>>>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>>
>> $B$O$$!"$=$&$G$9$M!#!#!#0U?^$O$J$$$G$9!#(B
>> INFINITY$B$K$7$?$$$H;W$$$^$9!#(B
>>
>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>
>>> $BOBED$5$s(B
>>>
>>> $B$*$O$h$&$4$6$$$^$9!#;3Fb$G$9!#(B
>>>
>>> $B [at] h|$N7o!"2sEz$$$?$7$^$9!#(B
>>>
>>> stonith$B$N [at] _D$K4X$7$F$O!"K\2H$@$H(B
>>> * http://www.clusterlabs.org/doc/crm_fencing.html
>>> $B$N$"$?$j$K$"$j$^$9$,!"$o$+$j$:$i$$$+$H;W$$$^$9!#(B
>>>
>>> $B4pK\E*$K$O!"(BN+1$B%N!<%I$N>l9g$G$"$l$P!"$=$l$>$l$N%N!<%I$KB>$N#1%N!<%I$r(Bstonith$B=PMh$k$h$&$J(Bstonith$B$N%j%=!<%9%0%k!<%W$r%?%9%-3]$1$KG[CV$7$F!"<+%N!<%IJ,$N(Bstonith$B$OG[CV=PMh$J$$$h$&$J [at] _D$r$9$k$3$H$,NI$$$H;W$$$^$9!#(B
>>> (stonith$B$GMxMQ$9$k%j%=!<%9$K$h$C$F$O!"(Bclone$B$GG[CV$9$k$3$H$b2DG=$G$9(B)
>>>
>>> $B@)8f%\!<%I$r;}$C$?%/%i%9%?$r9=@.$9$k<B5!$,(BIBM$B$G$"$l$P!"(Bibmrsa-telnet$B!#(B
>>> HP$B$G$"$l$P!"(Briloe$B!#(B
>>> $B@)8f%\!<%I$G(Bipmi$B$,;H$($k$J$i$P!"(Bipmi$B!#!#$H$$$C$?(Bstonith$B%j%=!<%9$r;H$C$F!"BP>]$N>c32%N!<%I$rMn$H$9(B(fencing)$B$9$k$3$H$,2DG=$G$9!#(B
>>> $B@)8f%\!<%I$r;}$?$J$$>l9g$G$"$l$P!"(Bssh$B$"$?$j$rMxMQ$9$k$3$H$K$J$j$^$9!#(B
>>> * stonith$B%j%=!<%9$K4X$7$F$O!"(Bstonith -L$B%3%^%s%I$GMxMQ2DG=$J(Bstonith$B%j%=!<%9$,I=<(2DG=$G$9!#(B
>>>
>>> stonith$B$N%0%k!<%W%j%=!<%9$H$7$F$O0J2<$N$h$&$J9=@.$,K>$^$7$$$H;W$$$^$9!#(B
>>>
>>> 1. stonith-helper ....stonith$B$r<B9T$9$kI,MW$,$"$k$+$I$&$+$r%A%'%C%/(B
>>> 2. ssh...$B<B:]$K(Bstonith$B$r<B9T$9$k!J<B5!$K$h$C$F$O!"(Bibmrsa-telnet$B$d(Briloe,ipmi)
>>> 3. meatware ...$B:G=*E*$K(Bstonith$B$K<:GT$7$?>l9g$NJ]<i<T$N2p:_$rB%$9(B
>>>
>>> $B$3$l$i$N(Bstonith$B$N%0%k!<%W%j%=!<%9$rA4$F$N%N!<%IKh$KMQ0U$7$F!"%?%9%-3]$1$GG[CV$9$k%$%a!<%8$K$J$j$^$9!#!J(Bclone$B$G$N [at] _D$O3d0&$7$^$9!K(B
>>>
>>> $B0J2<$K(Bcib.xml$B7A<0$G$9$,!"(Bstonith$B%0%k!<%W$N#1$D$NNc$H!"G[CV@)Ls$r5-:\$7$F$*$-$^$9!#(B
>>> $B$3$N$h$&$J(Bstonith$B$N%0%k!<%W%j%=!<%9$r%?%9%-3]$1$NG[CV$7$^$9!#(B
>>> #$B<B:]$N [at] _D$,:G?7$N(Bstonith$B$N%Q%i%a!<%?$K$"$C$F$$$k$+$I$&$+$O!":FEY!"$43NG'$/$@$5$$!#(B
>>>
>>> *$B!!(BgrpStonith1$B$O!"(Bsrv02$B$r(Bfencing$B$9$k0Y$N%j%=!<%9(B
>>> <group id="grpStonith1">
>>> <primitive class="stonith" id="prmStonith1-1" type="external/stonith-helper">
>>> <instance_attributes id="prmStonith1-1-instance_attributes">
>>> <nvpair id="prmStonith1-1-priority" name="priority" value="1"/>
>>> <nvpair id="prmStonith1-1-stonith-timeout" name="stonith-timeout" value="60s"/>
>>> <nvpair id="prmStonith1-1-hostlist" name="hostlist" value="srv02"/>
>>> <nvpair id="prmStonith1-1-dead_check_target" name="dead_check_target" value="192.168.40.20"/>
>>> <nvpair id="prmStonith1-1-run_standby_wait" name="run_standby_wait" value="no"/>
>>> </instance_attributes>
>>> <operations>
>>> <op id="prmStonith1-1-start" interval="0" name="start" timeout="60s"/>
>>> <op id="prmStonith1-1-monitor" interval="3600s" name="monitor" timeout="60s"/>
>>> <op id="prmStonith1-1-stop" interval="0" name="stop" timeout="60s"/>
>>> </operations>
>>> </primitive>
>>> <primitive class="stonith" id="prmStonith1-3" type="external/ssh">
>>> <instance_attributes id="prmStonith1-3-instance_attributes">
>>> <nvpair id="prmStonith1-3-priority" name="priority" value="3"/>
>>> <nvpair id="prmStonith1-3-stonith-timeout" name="stonith-timeout" value="60s"/>
>>> <nvpair id="prmStonith1-3-ip_address" name="hostlist" value="srv02"/>
>>> </instance_attributes>
>>> <operations>
>>> <op id="prmStonith1-3-start" interval="0" name="start" timeout="60s"/>
>>> <op id="prmStonith1-3-monitor" interval="3600s" name="monitor" timeout="60s"/>
>>> <op id="prmStonith1-3-stop" interval="0" name="stop" timeout="60s"/>
>>> </operations>
>>> </primitive>
>>> <primitive class="stonith" id="prmStonith1-4" type="meatware">
>>> <instance_attributes id="prmStonith1-4-instance_attributes">
>>> <nvpair id="prmStonith1-4-priority" name="priority" value="4"/>
>>> <nvpair id="prmStonith1-4-stonith-timeout" name="stonith-timeout" value="60s"/>
>>> <nvpair id="prmStonith1-4-hostlist" name="hostlist" value="srv02"/>
>>> </instance_attributes>
>>> <operations>
>>> <op id="prmStonith1-4-start" interval="0" name="start" timeout="60s"/>
>>> <op id="prmStonith1-4-monitor" interval="3600s" name="monitor" timeout="60s"/>
>>> <op id="prmStonith1-4-stop" interval="0" name="stop" timeout="60s"/>
>>> </operations>
>>> </primitive>
>>> </group>
>>> * grpStonith1$B$O(Bsrv02$B0J30$N%N!<%I$K(Bsrv01->srv03$B$NM%@hEY$GG[.CV$5$l$k!#(B
>>> <rsc_location id="location-grpStonith01-1" rsc="grpStonith1">
>>> <rule id="rule-grpStonith01-1" score="300">
>>> <expression id="exp-grpStonith01-1" attribute="#uname" operation="eq" value="srv01"/>
>>> </rule>
>>> <rule id="rule-grpStonith01-2" score="-INFINITY">
>>> <expression id="exp-grpStonith01-2" attribute="#uname" operation="eq" value="srv02"/>
>>> </rule>
>>> <rule id="rule-grpStonith01-3" score="200">
>>> <expression id="exp-grpStonith01-3" attribute="#uname" operation="eq" value="srv03"/>
>>> </rule>
>>> </rsc_location>
>>>
>>> quorum-policy$B$K4X$7$F$G$9$,!":FEY [at] 0}$7$F=q$+$;$FD:$/$H!#!#!#(B
>>> ignore....$B2?$b$7$^$;$s!#%/%i%9%?9=@.$,(Bquorum$BDj?t!J#2!\#1$N>l9g!"#2$h$j>.$5$/$J$C$?!K$rK~$?$5$J$/$J$C$F$b2?$b$7$^$;$s!#$h$C$F!"8IN)$7$?%N!<%I$b$=$N$^$^$G5/F0$7$F$$$^$9!#(B
>>>
>>> stop...quorum$BDj?t$rK~$?$5$J$$%N!<%I$O%j%=!<%9$rDd;_$7$F!"(Bquorum$BDj?t$rK~$?$99=@.$+$i(Bstonith$B$,<B9T$5$l$^$9!#$h$C$F!"8IN)$7$?%N!<%I$O(Bstonith$B$G%j%V!<%H$5$l$^$9!#(B
>>>
>>> freee...quorum$BDj?t$rK~$?$5$J$$%N!<%I$O2?$b$7$^$;$s!#$G$9$,!"(Bquorum$BDj?t$rK~$?$99=@.$+$i(Bstonith$B$,<B9T$5$l$^$9!#$h$C$F!"8IN)$7$?%N!<%I$O(Bstonith$B$G%j%V!<%H$5$l$^$9!#(B
>>>
>>> $BCm0U$9$kE@$O!"(Bstop$B$N>l9g$G$9$H!"A4%N!<%I$,8IN)$7$?>l9g$K$OA4$F(Bquorum$BDj?t$r>C<:$7$^$9$N$G!"%j%=!<%9$OA4%N!<%I$GDd;_$7$F%5!<%S%9Dd;_$,5/$-$^$9!#(B
>>> freeze$B$N>l9g$O>e5-$G$b!"%j%=!<%9$O5/F0$7$?$^$^$G$9$N$G!"%5!<%S%9$O2TF02DG=$G$9!#(B
>>>
>>> $B [at] _D$K4X$7$F$G$9$,!"(Bquorum-policy$B$O>e5-$r;29M$K [at] _D$7$F$$$?$@$/$H$7$F!"(Bstonith$B%0%k!<%W%j%=!<%9$r [at] _D$7$F$$$?$@$$$F$+$i!"(B
>>>
>>> property$B$G!"(Bstonith-enabled="true",startup-fencing="false"$B$H(B
>>> stonith-timeout="stonith$B%0%k!<%W%j%=!<%9$N7W;;>e$N=hM}$K$+$+$kIC?t(B"$B$r(B
>>> $B [at] _D$7$F$/$@$5$$!#(B
>>> #$B$H$j$"$($:!"(Bstonith-helper+ssh+meatware$B$G$"$l$P!"(Bstonith-timeout=430s$B$"$?$j$G==J,$+$H;W$$$^$9$,!"$3$N$"$?$j$O<B:]$NF0:n$GD4@0$7$F$/$@$5$$!#(B
>>>
>>> $B$^$?!"3F%j%=!<%9$N(Bon-fail$B [at] _D$G$9$,!"(B
>>>
>>> start,monitor$B$K4X$7$F$O!"(Brestart$B$GNI$$$H;W$$$^$9!#(B
>>>
>>> $B$^$?!"(Bstop$B$K4X$7$F$O!"(Bdiskd,pingd$B0J30$O(Bfence$B$GNI$$$H;W$$$^$9!#(B
>>> #$BDI2C$7$?(Bstonith$B%j%=!<%9$K$h$C$F!"(Bstop$B$K<:GT$9$k$H(Bfencing$BF0:n$,F~$j$^$9!#(B
>>> diskd,pingd$B$K4X$7$F$O!"(Bignore$B$GNI$$$H;W$$$^$9!#(B
>>>
>>> colocation$B$K4X$7$F$O!"A4$F(B1000$B$G$O$J$/(Binf$B$G(BOK$B$+$H;W$$$^$9!#(B
>>> $B!t2?$+0U?^$5$l$F$$$k$3$H$,$"$k$h$&$G$7$?$i!"(B1000$B$G9=$$$^$;$s$,!#!#!#!#(B
>>>
>>>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>>>
>>> $B0J>e$G$9!#(B
>>>
>>>
>>> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>>>
>>>> $B;3Fb$5$s(B
>>>>
>>>> $B$3$s$P$s$O!#(B
>>>> $BOBED$G$9!#(B
>>>>
>>>> $BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B
>>>>
>>>> $B$$$m$$$m$H [at] _D$N8+D>$7$,I,MW$=$&$G$9$M!#!#!#(B
>>>> $B$=$l$G$O!"L@F|!"$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>>
>>>>> $BOBED$5$s(B
>>>>>
>>>>> $B$3$s$P$s$O!";3Fb$G$9!#(B
>>>>>
>>>>>> $BAa!9$N$42sEz$"$j$,$H$&$4$6$$$^$9!#(B
>>>>>>
>>>>>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>>>>>
>>>>>> $B8=>u!"(Bignore $B$r [at] _D$7$F$$$^$9!#(B
>>>>>> $B!t(Bfreeze$B$K [at] _D$9$kI,MW$,$"$k$N$G$9$M!#!#!#(B
>>>>>
>>>>> $B$O$$!#(B
>>>>> $B4pK\E*$K$O!"J,CG$N@)8f$r(BPacemaker$B$K$5$;$k$N$G$"$l$P!"(Bfreeze($B$b$7$/$O(Bstop)$B$K [at] _D$9$kI,MW$,$"$j$^$9!#(B
>>>>>
>>>>>>
>>>>>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>>>>>
>>>>>> STONITH$B$N [at] _D$H$$$&$N$,!"==J,$KM}2r$G$-$F$$$J$$$N$G$9$,!"(B
>>>>>> stonith-helper$B$N$_$r [at] _D$9$l$P$h$$$N$G$7$g$&$+!)(B
>>>>>> $B$^$?!"(BN + 1$B9=@.$N>l9g$N [at] _Dj}K!$,$h$/$o$+$i$J$$$N$G$9$,!";29M$H$J$k(B
>>>>>> $B%5%$%HEy$r$465<($$$?$@$1$J$$$G$7$g$&$+!)(B
>>>>>
>>>>> $B$$$(!"(Bstonith-helper$B$NB>$K<B:]$K8IN)$7$?%N!<%I$rMn$H$90Y$N(Bstonith$B%j%=!<%9$,I,MW$K$J$j$^$9!#(B
>>>>> $B!t%5%$%H$J$I$OL@F|$4O"Mm$7$^$9$M!#(B
>>>>>
>>>>>>
>>>>>> $B$^$?!"(Bfreeze$B$H$$$&%-!<%o!<%I$r$b$H$K8!:w$7$?$H$3$m2a5n$N;3Fb$5$s$N(B
>>>>>> $B2sEz$K$?$I$jCe$$$?$N$G$9$,!"(B
>>>>>> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
>>>>>
>>>>> $B$O$$!#(B
>>>>>
>>>>>
>>>>>> 2:1$B$GJ,CG$5$l$?$H$-$K!"(B1$B$rDd;_$7$FLdBj$J$$$H$9$k$H!"(Bno-quorum-policy $B$r(B stop $B$K(B
>>>>>> $B [at] _D$9$k!#!J$3$N>l9g!"(BSTONITH$B$N [at] _D$O$7$J$/$F$b$h$$!#!K(B
>>>>>> $B$H$$$&M}2r$G$"$C$F$$$k$G$7$g$&$+!)(B
>>>>>
>>>>> $B$$$(!"$=$&$$$&$3$H$G$O$"$j$^$;$s!#(B
>>>>> $B#1$G%j%=!<%9$rDd;_$7$FLdBj$J$$$H$$$&$3$H$^$G$O@5$7$$$N$G$9$,!"$=$N8e!"(B1
>>>>> $B$r#2B&$+$iMn$H$9;v$,I,MW$K$J$j$^$9$N$G!"(BSTONITH$B$OI,MW$G$9!#(B
>>>>> $B!t$3$N$"$?$j$b$b$&>/$7>\:Y$KL@F|2sEz$7$^$9!#(B
>>>>>
>>>>>
>>>>>
>>>>>>
>>>>>> $BEjF~$7$?(Bcrm$B%U%!%$%k$r0J2<$K5-:\$7$^$9!#(B
>>>>>>
>>>>>> -------------------------------------------------------------------------------
>>>>>> primitive prmPing ocf:pacemaker:ping \
>>>>>> params \
>>>>>> name="ping_set" \
>>>>>> host_list="192.168.1.1 192.168.2.1" \
>>>>>> multiplier="100" \
>>>>>> dampen="0" \
>>>>>> meta \
>>>>>> migration-threshold="3" \
>>>>>> failure-timeout="60s" \
>>>>>> op start interval="0s" timeout="90s" on-fail="standby" \
>>>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>>>> op stop interval="0s" timeout="100s" on-fail="block"
>>>>>>
>>>>>> primitive prmApache ocf:heartbeat:apache \
>>>>>> params configfile="/etc/httpd/conf/httpd.conf" \
>>>>>> port="80" \
>>>>>> op start interval="0s" timeout="40s" on-fail="standby" \
>>>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>>>> op stop interval="0s" timeout="60s" on-fail="block"
>>>>>>
>>>>>> primitive prmDiskd ocf:pacemaker:diskd \
>>>>>> params name="diskd_set" \
>>>>>> device="/dev/sda1" \
>>>>>> op start interval="0s" timeout="60s" on-fail="standby" \
>>>>>> op monitor interval="10s" timeout="60s" on-fail="standby" \
>>>>>> op stop interval="0s" timeout="60s" on-fail="block"
>>>>>>
>>>>>> clone clnApache prmApache \
>>>>>> meta clone-max="2" clone-node-max="1"
>>>>>>
>>>>>> clone clnPing prmPing \
>>>>>> meta clone-max="3" clone-node-max="1"
>>>>>>
>>>>>> clone clnDiskd prmDiskd \
>>>>>> meta clone-max="3" clone-node-max="1"
>>>>>>
>>>>>> location clnApache-location clnApache \
>>>>>> rule 200: #uname eq it08 \
>>>>>> rule 200: #uname eq it09 \
>>>>>> rule 100: #uname eq it10 \
>>>>>> rule -INFINITY: defined ping_set and ping_set lt 200 \
>>>>>> rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
>>>>>>
>>>>>> colocation clnPing-colocation 1000: clnApache clnPing
>>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
>>>>>> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
>>>>>> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
>>>>>>
>>>>>> property stonith-enabled="false" \
>>>>>> no-quorum-policy="stop"
>>>>>>
>>>>>> rsc_defaults resource-stickiness="INFINITY" \
>>>>>> migration-threshold="1"
>>>>>>
>>>>>> -------------------------------------------------------------------------------
>>>>>>
>>>>>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>>>
>>>>> STONITH$B$r [at] _D$7$?8e$G!"(Bapache$B$J$I$N(Bstop$B$N(Bon-fail$B$O(Bfence$B$K$7$FD:$$$?J}$,NI$$$G$9!#(B
>>>>> block$B$G$9$H!"$=$N$^$^%j%=!<%9Dd;_$K<:GT$7$?>uBV$G;_$^$C$F$7$^$$!"%j%=!<%9$ODd;_!J%5!<%S%9Dd;_!K$H$J$j$^$9!#(B
>>>>>
>>>>> $B$3$A$i$b [at] _D$K4X$7$F!"L@F|8+D>$7$F$5$i$K>\:Y$r$4O"Mm$$$?$7$^$9!#(B
>>>>>
>>>>> $B0J>e$G$9!#(B
>>>>>
>>>>>
>>>>>>
>>>>>>> $BOBED$5$s(B
>>>>>>>
>>>>>>> $B$3$s$K$A$O!";3Fb$G$9!#(B
>>>>>>>
>>>>>>> $B [at] _D$,5$$K$J$j$^$9$,!"(BPacemaker$B$N(BQuorumPolicy$B$O$I$&$5$l$F$$$^$9$+!)(B
>>>>>>>
>>>>>>> $B$b$7!"8IN)$7$?#1%N!<%I$,8IN)$7$?;~E@$G!"%j%V!<%H$5$l$FLdBj$J$$$N$G$"$l$P!"DL>o(B
>>>>>>> freeze$B$J$I$N [at] _D$r9T$C$F$$$?$@$1$l$P!";D$j$N#2%N!<%IB&$+$i(Bstonith$B$,<B9T$5$l$^$9!#(B
>>>>>>> $B!t$?$@$7!"$3$N>l9g!"(BSTONITH$B$N%j%=!<%9 [at] _D$OI,?\$G$9!#(B
>>>>>>>
>>>>>>> $B$^$?!"$?$V$s!"8IN)$7$?%N!<%I$,;22C$7$h$&$H$O$7$F$$$k$O$:$G$9$,!"$J$s$i$+$NMW0x!J(BPacemaker$B$b$7$/$O(Bcorosync$B!K$G:F9=@.$r<h$l$J$$>u67$@$H;W$$$^$9!#(B
>>>>>>>
>>>>>>> $B3F%N!<%I$N%m%0!"(Bcib.xml($B$b$7$/$OEjF~$5$l$?(Bcrm$B%U%!%$%k!K$r3+<($7$F$$$?$@$1$l$P(B
>>>>>>> $B$b$&>/$7>\:Y$J2sEz$,2DG=$J$N$G$9$,!#!#!#(B
>>>>>>>
>>>>>>> $B!tM=CG$G$9$,!"(BPacemaker$B$G$OJ#?t%N!<%I9=@.;~$K%N!<%IJ,CG$+$i$N$=$N$^$^$NI|5l$O:#$N=j$&$^$/F0$-$^$;$s$N$G!"I,$:!"(BSTONITH$B$J$j%j%V!<%H$J$j$N<j=g$r9T$&$3$H$r$*4+$a$$$?$7$^$9!#(B
>>>>>>>
>>>>>>>
>>>>>>> $B0J>e$G$9!#(B
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>> --- On Tue, 2012/1/17, $BOBED!!?-0lO/(B<wada.shinichiro [at] jp> wrote:
>>>>>>>
>>>>>>>> $BOBED$H?=$7$^$9!#(B
>>>>>>>> $B$O$8$a$^$7$F!#(B
>>>>>>>>
>>>>>>>> Corosync + Pacemaker + $B%"%W%j%1!<%7%g%s$G(B N + 1$B9=@.$r(B
>>>>>>>> $B:n@.$7$h$&$H$7$F$$$^$9!#(B
>>>>>>>> $B!t;CDjE*$K%"%W%j%1!<%7%g%s$O(B Apache $B$rMxMQ$7!"(BClone $B$rMQ$$$F(B
>>>>>>>> $B!t(B2 + 1$B9=@.$H$7$F$$$^$9!#(B
>>>>>>>>
>>>>>>>> $BDL>o$N>uBV$G$O!"(B2 + 1$B9=@.$rLdBj$J$/9=C[$9$k$3$H$,(B
>>>>>>>> $B$G$-$?$N$G$9$,!"%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?:]$K!"(B
>>>>>>>> $B%$%s%?%U%'!<%9$N(B down / up $B$r9T$C$?%5!<%P$N(B Current DC $B$,(B
>>>>>>>> $B<+J,<+?H$H$J$j!"2sI|$7$J$$>uBV$H$J$C$F$7$^$$$^$9!#(B
>>>>>>>>
>>>>>>>> $B$3$N$h$&$J>uBV$KH/@8$5$;$J$$J}K!!"$^$?$O!"(BCorosync $B$N(B restart $B$r(B
>>>>>>>> $B9T$o$:$K(B Current DC $B$rE}0l$9$kJ}K!$O$4$6$$$^$9$G$7$g$&$+!)(B
>>>>>>>>
>>>>>>>> $B$J$*!"%$%s%?%U%'!<%9$N>iD92=$O9T$C$F$*$j$^$;$s!#(B
>>>>>>>>
>>>>>>>> ------- $B@5>o;~(B $B$3$3$+$i(B ------------------
>>>>>>>> ============
>>>>>>>> Last updated: Tue Jan 17 15:27:22 2012
>>>>>>>> Stack: openais
>>>>>>>> Current DC: it09 - partition with quorum
>>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>>>> 3 Nodes configured, 3 expected votes
>>>>>>>> 3 Resources configured.
>>>>>>>> ============
>>>>>>>>
>>>>>>>> Online: [ it08 it09 it10 ]
>>>>>>>>
>>>>>>>> Clone Set: clnApache
>>>>>>>> Started: [ it08 it09 ]
>>>>>>>> Clone Set: clnDiskd
>>>>>>>> Started: [ it08 it09 it10 ]
>>>>>>>> Clone Set: clnPing
>>>>>>>> Started: [ it08 it09 it10 ]
>>>>>>>> ------- $B@5>o;~(B $B$3$3$^$G(B ------------------
>>>>>>>>
>>>>>>>> ------- $B0[>o;~(B $B$3$3$+$i(B ------------------
>>>>>>>> ============
>>>>>>>> Last updated: Tue Jan 17 15:28:05 2012
>>>>>>>> Stack: openais
>>>>>>>> Current DC: it09 - partition with quorum
>>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>>>> 3 Nodes configured, 3 expected votes
>>>>>>>> 3 Resources configured.
>>>>>>>> ============
>>>>>>>>
>>>>>>>> Online: [ it08 it09 ]
>>>>>>>> OFFLINE: [ it10 ]
>>>>>>>>
>>>>>>>> Clone Set: clnApache
>>>>>>>> Started: [ it08 it09 ]
>>>>>>>> Clone Set: clnDiskd
>>>>>>>> Started: [ it08 it09 ]
>>>>>>>> Stopped: [ prmDiskd:2 ]
>>>>>>>> Clone Set: clnPing
>>>>>>>> Started: [ it08 it09 ]
>>>>>>>> Stopped: [ prmPing:2 ]
>>>>>>>> ------------------------------------------
>>>>>>>> ============
>>>>>>>> Last updated: Tue Jan 17 16:18:28 2012
>>>>>>>> Stack: openais
>>>>>>>> Current DC: it10 - partition WITHOUT quorum
>>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
>>>>>>>> 3 Nodes configured, 3 expected votes
>>>>>>>> 3 Resources configured.
>>>>>>>> ============
>>>>>>>>
>>>>>>>> Online: [ it10 ]
>>>>>>>> OFFLINE: [ it08 it09 ]
>>>>>>>>
>>>>>>>> Clone Set: clnApache
>>>>>>>> Started: [ it10 ]
>>>>>>>> Stopped: [ prmApache:1 ]
>>>>>>>> Clone Set: clnDiskd
>>>>>>>> Started: [ it10 ]
>>>>>>>> Stopped: [ prmDiskd:0 prmDiskd:1 ]
>>>>>>>> Clone Set: clnPing
>>>>>>>> Started: [ it10 ]
>>>>>>>> Stopped: [ prmPing:0 prmPing:1 ]
>>>>>>>> ------- $B0[>o;~(B $B$3$3$^$G(B ------------------
>>>>>>>>
>>>>>>>> $B$h$m$7$/$*4j$$CW$7$^$9!#(B
>>>>>>>>
>>>>>>>> _______________________________________________
>>>>>>>> Linux-ha-japan mailing list
>>>>>>>> Linux-ha-japan [at] lists
>>>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>>>
>>>>>>>
>>>>>>> _______________________________________________
>>>>>>> Linux-ha-japan mailing list
>>>>>>> Linux-ha-japan [at] lists
>>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>
>>>>>> ___________# crm configure____________________________________
>>>>>> Linux-ha-japan mailing list
>>>>>> Linux-ha-japan [at] lists
>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Linux-ha-japan mailing list
>>>>> Linux-ha-japan [at] lists
>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>
>>>> _______________________________________________
>>>> Linux-ha-japan mailing list
>>>> Linux-ha-japan [at] lists
>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>>>
>>>
>>> _______________________________________________
>>> Linux-ha-japan mailing list
>>> Linux-ha-japan [at] lists
>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>> _______________________________________________
>> Linux-ha-japan mailing list
>> Linux-ha-japan [at] lists
>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>>
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan


renayama19661014 at ybb

Jan 17, 2012, 8:26 PM

Post #10 of 10 (591 views)
Permalink
Re: n+1構成でスプリットブレイン状態になり回復しない [In reply to]

和田さん

こんにちは、山内です。

また何かありましたら、MLに投稿してください。

では、検証がんばってください。

以上です。

--- On Wed, 2012/1/18, 和田 伸一朗 <wada.shinichiro [at] jp> wrote:

> 山内さん
>
> こんにちは。
> 和田です。
>
> いろいろと丁寧なご説明ありがとうございました。
>
> おかげでもやもやしていたところもだいぶすっきりしました。
> ご教示いただいた内容をもとに検証を進めていきたいと思います。
>
> ありがとうございました。
>
> > 和田さん
> >
> > こんにちは。山内です。
> >
> >> 丁寧なご説明ありがとうございました。
> >>
> >>>    1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> >>>    2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> >>>    3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
> >>
> >> この方法で、リブートできることまで確認ができました。
> >> ただ、リソースを登録したときに、
> >>
> >> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
> >>
> >> というようなメッセージが表示されました。
> >>
> >> http://linux-ha.sourceforge.jp/wp/archives/1809/3
> >> には「STONITHを設定していない場合(stonith-enabled=”false”)、上記のエラーが出力されますが
> >> 今回は無視してください。」とあります。
> >> stonith-enabled="true"は設定しています。
> >>
> >> 特に問題ないメッセージなのでしょうか?
> >> それとも設定に不足があるのでしょうか。。。?
> >
> > 正確には、[STONITH]を設定していない場合ではなくて、startup-fencing=falseの場合にここの警告メッセージが出力されます。
> > ですが、問題はありませんので無視していただいて結構です。
> >
> >> また、サーバがSTONITHによってリブートされた後、リブートされたサーバで動作していた
> >> STONITHの設定が、(当たり前ですが)ほかのサーバに移動しました。
> >> これを元に戻すには手動で移動するようになるのでしょうか?
> >
> > はい。手動でリブートした(復帰した)ノードにSTONITHのグループリソースは戻す必要があります。
> > もし、cloneでSTONITHリソースグループをお使いになられるのでしたら、当然、戻す必要はありませんが。。。。
> >
> >>
> >>> start,monitorに関しては、restartで良いと思います。
> >>>
> >>> また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> >>> #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> >>> diskd,pingdに関しては、ignoreで良いと思います。
> >>
> >> ACT/SBYの構成で確認した際に、restartに設定したgroup内に複数のリソースがあった場合、
> >> group内の最後のリソース以外に異常が発生した場合、うまく切り替わらなかったため
> >> standbyに設定していました。
> >> 今回、いろいろとやり取りをさせていただいて、stop の on-fail が "block" になって
> >> いたからではないかと推測しています。
> >> STONITHの設定も含めて、ご指摘頂いた方向で見直したいと思います。
> >
> > よろしく御願いします。
> >
> >
> >>> colocationに関しては、全て1000ではなくinfでOKかと思います。
> >>> #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >>>
> >>>>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >>
> >> はい、そうですね。。。意図はないです。
> >> INFINITYにしたいと思います。
> >
> > はい。その方が良いと思います。
> >
> > 以上です。
> >
> >
> > --- On Wed, 2012/1/18, 和田 伸一朗<wada.shinichiro [at] jp>  wrote:
> >
> >> 山内さん
> >>
> >> こんにちは。
> >> 和田です。
> >>
> >> 丁寧なご説明ありがとうございました。
> >>
> >>>     1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> >>>     2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> >>>     3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
> >>
> >> この方法で、リブートできることまで確認ができました。
> >> ただ、リソースを登録したときに、
> >>
> >> crm_verify[14385]: 2012/01/18_11:25:42 WARN: unpack_nodes: Blind faith: not fencing unseen nodes
> >>
> >> というようなメッセージが表示されました。
> >>
> >> http://linux-ha.sourceforge.jp/wp/archives/1809/3
> >> には「STONITHを設定していない場合(stonith-enabled=”false”)、上記のエラーが出力されますが
> >> 今回は無視してください。」とあります。
> >> stonith-enabled="true"は設定しています。
> >>
> >> 特に問題ないメッセージなのでしょうか?
> >> それとも設定に不足があるのでしょうか。。。?
> >>
> >> また、サーバがSTONITHによってリブートされた後、リブートされたサーバで動作していた
> >> STONITHの設定が、(当たり前ですが)ほかのサーバに移動しました。
> >> これを元に戻すには手動で移動するようになるのでしょうか?
> >>
> >>> start,monitorに関しては、restartで良いと思います。
> >>>
> >>> また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> >>> #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> >>> diskd,pingdに関しては、ignoreで良いと思います。
> >>
> >> ACT/SBYの構成で確認した際に、restartに設定したgroup内に複数のリソースがあった場合、
> >> group内の最後のリソース以外に異常が発生した場合、うまく切り替わらなかったため
> >> standbyに設定していました。
> >> 今回、いろいろとやり取りをさせていただいて、stop の on-fail が "block" になって
> >> いたからではないかと推測しています。
> >> STONITHの設定も含めて、ご指摘頂いた方向で見直したいと思います。
> >>
> >>> colocationに関しては、全て1000ではなくinfでOKかと思います。
> >>> #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >>>
> >>>>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >>
> >> はい、そうですね。。。意図はないです。
> >> INFINITYにしたいと思います。
> >>
> >> よろしくお願い致します。
> >>
> >>> 和田さん
> >>>
> >>> おはようございます。山内です。
> >>>
> >>> 先日の件、回答いたします。
> >>>
> >>> stonithの設定に関しては、本家だと
> >>>     * http://www.clusterlabs.org/doc/crm_fencing.html
> >>> のあたりにありますが、わかりずらいかと思います。
> >>>
> >>> 基本的には、N+1ノードの場合であれば、それぞれのノードに他の1ノードをstonith出来るようなstonithのリソースグループをタスキ掛けに配置して、自ノード分のstonithは配置出来ないような設定をすることが良いと思います。
> >>> (stonithで利用するリソースによっては、cloneで配置することも可能です)
> >>>
> >>> 制御ボードを持ったクラスタを構成する実機がIBMであれば、ibmrsa-telnet。
> >>> HPであれば、riloe。
> >>> 制御ボードでipmiが使えるならば、ipmi。。といったstonithリソースを使って、対象の障害ノードを落とす(fencing)することが可能です。
> >>> 制御ボードを持たない場合であれば、sshあたりを利用することになります。
> >>>     * stonithリソースに関しては、stonith -Lコマンドで利用可能なstonithリソースが表示可能です。
> >>>
> >>> stonithのグループリソースとしては以下のような構成が望ましいと思います。
> >>>
> >>>     1. stonith-helper ....stonithを実行する必要があるかどうかをチェック
> >>>     2. ssh...実際にstonithを実行する(実機によっては、ibmrsa-telnetやriloe,ipmi)
> >>>     3. meatware ...最終的にstonithに失敗した場合の保守者の介在を促す
> >>>
> >>> これらのstonithのグループリソースを全てのノード毎に用意して、タスキ掛けで配置するイメージになります。(cloneでの設定は割愛します)
> >>>
> >>> 以下にcib.xml形式ですが、stonithグループの1つの例と、配置制約を記載しておきます。
> >>> このようなstonithのグループリソースをタスキ掛けの配置します。
> >>> #実際の設定が最新のstonithのパラメータにあっているかどうかは、再度、ご確認ください。
> >>>
> >>>     * grpStonith1は、srv02をfencingする為のリソース
> >>>          <group id="grpStonith1">
> >>>            <primitive class="stonith" id="prmStonith1-1" type="external/stonith-helper">
> >>>              <instance_attributes id="prmStonith1-1-instance_attributes">
> >>>              <nvpair id="prmStonith1-1-priority" name="priority" value="1"/>
> >>>                <nvpair id="prmStonith1-1-stonith-timeout" name="stonith-timeout" value="60s"/>
> >>>                <nvpair id="prmStonith1-1-hostlist" name="hostlist" value="srv02"/>
> >>>                <nvpair id="prmStonith1-1-dead_check_target" name="dead_check_target" value="192.168.40.20"/>
> >>>                <nvpair id="prmStonith1-1-run_standby_wait" name="run_standby_wait" value="no"/>
> >>>              </instance_attributes>
> >>>              <operations>
> >>>                <op id="prmStonith1-1-start" interval="0" name="start" timeout="60s"/>
> >>>                <op id="prmStonith1-1-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >>>                <op id="prmStonith1-1-stop" interval="0" name="stop" timeout="60s"/>
> >>>              </operations>
> >>>            </primitive>
> >>>            <primitive class="stonith" id="prmStonith1-3" type="external/ssh">
> >>>              <instance_attributes id="prmStonith1-3-instance_attributes">
> >>>                <nvpair id="prmStonith1-3-priority" name="priority" value="3"/>
> >>>                <nvpair id="prmStonith1-3-stonith-timeout" name="stonith-timeout" value="60s"/>
> >>>                <nvpair id="prmStonith1-3-ip_address" name="hostlist" value="srv02"/>
> >>>              </instance_attributes>
> >>>              <operations>
> >>>                <op id="prmStonith1-3-start" interval="0" name="start" timeout="60s"/>
> >>>                <op id="prmStonith1-3-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >>>                <op id="prmStonith1-3-stop" interval="0" name="stop" timeout="60s"/>
> >>>              </operations>
> >>>            </primitive>
> >>>            <primitive class="stonith" id="prmStonith1-4" type="meatware">
> >>>              <instance_attributes id="prmStonith1-4-instance_attributes">
> >>>                <nvpair id="prmStonith1-4-priority" name="priority" value="4"/>
> >>>                <nvpair id="prmStonith1-4-stonith-timeout" name="stonith-timeout" value="60s"/>
> >>>                <nvpair id="prmStonith1-4-hostlist" name="hostlist" value="srv02"/>
> >>>              </instance_attributes>
> >>>              <operations>
> >>>                <op id="prmStonith1-4-start" interval="0" name="start" timeout="60s"/>
> >>>                <op id="prmStonith1-4-monitor" interval="3600s" name="monitor" timeout="60s"/>
> >>>                <op id="prmStonith1-4-stop" interval="0" name="stop" timeout="60s"/>
> >>>              </operations>
> >>>            </primitive>
> >>>          </group>
> >>>     * grpStonith1はsrv02以外のノードにsrv01->srv03の優先度で配置される。
> >>>          <rsc_location id="location-grpStonith01-1" rsc="grpStonith1">
> >>>            <rule id="rule-grpStonith01-1" score="300">
> >>>              <expression id="exp-grpStonith01-1" attribute="#uname" operation="eq" value="srv01"/>
> >>>            </rule>
> >>>            <rule id="rule-grpStonith01-2" score="-INFINITY">
> >>>              <expression id="exp-grpStonith01-2" attribute="#uname" operation="eq" value="srv02"/>
> >>>            </rule>
> >>>            <rule id="rule-grpStonith01-3" score="200">
> >>>              <expression id="exp-grpStonith01-3" attribute="#uname" operation="eq" value="srv03"/>
> >>>            </rule>
> >>>          </rsc_location>
> >>>
> >>> quorum-policyに関してですが、再度整理して書かせて頂くと。。。
> >>> ignore....何もしません。クラスタ構成がquorum定数(2+1の場合、2より小さくなった)を満たさなくなっても何もしません。よって、孤立したノードもそのままで起動しています。
> >>>
> >>> stop...quorum定数を満たさないノードはリソースを停止して、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。
> >>>
> >>> freee...quorum定数を満たさないノードは何もしません。ですが、quorum定数を満たす構成からstonithが実行されます。よって、孤立したノードはstonithでリブートされます。
> >>>
> >>> 注意する点は、stopの場合ですと、全ノードが孤立した場合には全てquorum定数を消失しますので、リソースは全ノードで停止してサービス停止が起きます。
> >>> freezeの場合は上記でも、リソースは起動したままですので、サービスは稼動可能です。
> >>>
> >>> 設定に関してですが、quorum-policyは上記を参考に設定していただくとして、stonithグループリソースを設定していただいてから、
> >>>
> >>> propertyで、stonith-enabled="true",startup-fencing="false"と
> >>> stonith-timeout="stonithグループリソースの計算上の処理にかかる秒数"を
> >>> 設定してください。
> >>> #とりあえず、stonith-helper+ssh+meatwareであれば、stonith-timeout=430sあたりで十分かと思いますが、このあたりは実際の動作で調整してください。
> >>>
> >>> また、各リソースのon-fail設定ですが、
> >>>
> >>> start,monitorに関しては、restartで良いと思います。
> >>>
> >>> また、stopに関しては、diskd,pingd以外はfenceで良いと思います。
> >>> #追加したstonithリソースによって、stopに失敗するとfencing動作が入ります。
> >>> diskd,pingdに関しては、ignoreで良いと思います。
> >>>
> >>> colocationに関しては、全て1000ではなくinfでOKかと思います。
> >>> #何か意図されていることがあるようでしたら、1000で構いませんが。。。。
> >>>
> >>>>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >>>
> >>> 以上です。
> >>>
> >>>
> >>> --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>   wrote:
> >>>
> >>>> 山内さん
> >>>>
> >>>> こんばんは。
> >>>> 和田です。
> >>>>
> >>>> 早々のご回答ありがとうございます。
> >>>>
> >>>> いろいろと設定の見直しが必要そうですね。。。
> >>>> それでは、明日、よろしくお願い致します。
> >>>>
> >>>>> 和田さん
> >>>>>
> >>>>> こんばんは、山内です。
> >>>>>
> >>>>>> 早々のご回答ありがとうございます。
> >>>>>>
> >>>>>>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>>>>>
> >>>>>> 現状、ignore を設定しています。
> >>>>>> #freezeに設定する必要があるのですね。。。
> >>>>>
> >>>>> はい。
> >>>>> 基本的には、分断の制御をPacemakerにさせるのであれば、freeze(もしくはstop)に設定する必要があります。
> >>>>>
> >>>>>>
> >>>>>>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>>>>>
> >>>>>> STONITHの設定というのが、十分に理解できていないのですが、
> >>>>>> stonith-helperのみを設定すればよいのでしょうか?
> >>>>>> また、N + 1構成の場合の設定方法がよくわからないのですが、参考となる
> >>>>>> サイト等をご教示いただけないでしょうか?
> >>>>>
> >>>>> いえ、stonith-helperの他に実際に孤立したノードを落とす為のstonithリソースが必要になります。
> >>>>> #サイトなどは明日ご連絡しますね。
> >>>>>
> >>>>>>
> >>>>>> また、freezeというキーワードをもとに検索したところ過去の山内さんの
> >>>>>> 回答にたどり着いたのですが、
> >>>>>> http://sourceforge.jp/projects/linux-ha/lists/archive/japan/2011-April/000541.html
> >>>>>
> >>>>> はい。
> >>>>>
> >>>>>
> >>>>>> 2:1で分断されたときに、1を停止して問題ないとすると、no-quorum-policy を stop に
> >>>>>> 設定する。(この場合、STONITHの設定はしなくてもよい。)
> >>>>>> という理解であっているでしょうか?
> >>>>>
> >>>>> いえ、そういうことではありません。
> >>>>> 1でリソースを停止して問題ないということまでは正しいのですが、その後、1
> >>>>> を2側から落とす事が必要になりますので、STONITHは必要です。
> >>>>> #このあたりももう少し詳細に明日回答します。
> >>>>>
> >>>>>
> >>>>>
> >>>>>>
> >>>>>> 投入したcrmファイルを以下に記載します。
> >>>>>>
> >>>>>> -------------------------------------------------------------------------------
> >>>>>> primitive prmPing ocf:pacemaker:ping \
> >>>>>>               params \
> >>>>>>                       name="ping_set" \
> >>>>>>                       host_list="192.168.1.1 192.168.2.1" \
> >>>>>>                       multiplier="100" \
> >>>>>>                       dampen="0" \
> >>>>>>               meta \
> >>>>>>                       migration-threshold="3" \
> >>>>>>                       failure-timeout="60s" \
> >>>>>>               op start interval="0s" timeout="90s" on-fail="standby" \
> >>>>>>               op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>>>               op stop interval="0s" timeout="100s" on-fail="block"
> >>>>>>
> >>>>>> primitive prmApache ocf:heartbeat:apache \
> >>>>>>               params configfile="/etc/httpd/conf/httpd.conf" \
> >>>>>>               port="80" \
> >>>>>>               op start interval="0s" timeout="40s" on-fail="standby" \
> >>>>>>               op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>>>               op stop interval="0s" timeout="60s" on-fail="block"
> >>>>>>
> >>>>>> primitive prmDiskd ocf:pacemaker:diskd \
> >>>>>>               params name="diskd_set" \
> >>>>>>               device="/dev/sda1" \
> >>>>>>               op start interval="0s" timeout="60s" on-fail="standby" \
> >>>>>>               op monitor interval="10s" timeout="60s" on-fail="standby" \
> >>>>>>               op stop interval="0s" timeout="60s" on-fail="block"
> >>>>>>
> >>>>>> clone clnApache prmApache \
> >>>>>>               meta clone-max="2" clone-node-max="1"
> >>>>>>
> >>>>>> clone clnPing prmPing \
> >>>>>>               meta clone-max="3" clone-node-max="1"
> >>>>>>
> >>>>>> clone clnDiskd prmDiskd \
> >>>>>>               meta clone-max="3" clone-node-max="1"
> >>>>>>
> >>>>>> location clnApache-location clnApache \
> >>>>>>               rule 200: #uname eq it08 \
> >>>>>>               rule 200: #uname eq it09 \
> >>>>>>               rule 100: #uname eq it10 \
> >>>>>>               rule -INFINITY: defined ping_set and ping_set lt 200 \
> >>>>>>               rule -INFINITY: defined diskd_set and diskd_set eq SUCCESS
> >>>>>>
> >>>>>> colocation clnPing-colocation 1000: clnApache clnPing
> >>>>>> colocation clnDiskd-colocation 1000: clnApache clnDiskd
> >>>>>> order order_clnPing_after_all 0: clnPing clnApache symmetrical=false
> >>>>>> order order_clnDiskd_after_all 0: clnDiskd clnApache symmetrical=false
> >>>>>>
> >>>>>> property stonith-enabled="false" \
> >>>>>>               no-quorum-policy="stop"
> >>>>>>
> >>>>>> rsc_defaults resource-stickiness="INFINITY" \
> >>>>>>               migration-threshold="1"
> >>>>>>
> >>>>>> -------------------------------------------------------------------------------
> >>>>>>
> >>>>>> よろしくお願い致します。
> >>>>>
> >>>>> STONITHを設定した後で、apacheなどのstopのon-failはfenceにして頂いた方が良いです。
> >>>>> blockですと、そのままリソース停止に失敗した状態で止まってしまい、リソースは停止(サービス停止)となります。
> >>>>>
> >>>>> こちらも設定に関して、明日見直してさらに詳細をご連絡いたします。
> >>>>>
> >>>>> 以上です。
> >>>>>
> >>>>>
> >>>>>>
> >>>>>>> 和田さん
> >>>>>>>
> >>>>>>> こんにちは、山内です。
> >>>>>>>
> >>>>>>> 設定が気になりますが、PacemakerのQuorumPolicyはどうされていますか?
> >>>>>>>
> >>>>>>> もし、孤立した1ノードが孤立した時点で、リブートされて問題ないのであれば、通常
> >>>>>>> freezeなどの設定を行っていただければ、残りの2ノード側からstonithが実行されます。
> >>>>>>> #ただし、この場合、STONITHのリソース設定は必須です。
> >>>>>>>
> >>>>>>> また、たぶん、孤立したノードが参加しようとはしているはずですが、なんらかの要因(Pacemakerもしくはcorosync)で再構成を取れない状況だと思います。
> >>>>>>>
> >>>>>>> 各ノードのログ、cib.xml(もしくは投入されたcrmファイル)を開示していただければ
> >>>>>>> もう少し詳細な回答が可能なのですが。。。
> >>>>>>>
> >>>>>>> #予断ですが、Pacemakerでは複数ノード構成時にノード分断からのそのままの復旧は今の所うまく動きませんので、必ず、STONITHなりリブートなりの手順を行うことをお勧めいたします。
> >>>>>>>
> >>>>>>>
> >>>>>>> 以上です。
> >>>>>>>
> >>>>>>>
> >>>>>>>
> >>>>>>> --- On Tue, 2012/1/17, 和田 伸一朗<wada.shinichiro [at] jp>     wrote:
> >>>>>>>
> >>>>>>>> 和田と申します。
> >>>>>>>> はじめまして。
> >>>>>>>>
> >>>>>>>> Corosync + Pacemaker + アプリケーションで N + 1構成を
> >>>>>>>> 作成しようとしています。
> >>>>>>>> #暫定的にアプリケーションは Apache を利用し、Clone を用いて
> >>>>>>>> #2 + 1構成としています。
> >>>>>>>>
> >>>>>>>> 通常の状態では、2 + 1構成を問題なく構築することが
> >>>>>>>> できたのですが、インタフェースの down / up を行った際に、
> >>>>>>>> インタフェースの down / up を行ったサーバの Current DC が
> >>>>>>>> 自分自身となり、回復しない状態となってしまいます。
> >>>>>>>>
> >>>>>>>> このような状態に発生させない方法、または、Corosync の restart を
> >>>>>>>> 行わずに Current DC を統一する方法はございますでしょうか?
> >>>>>>>>
> >>>>>>>> なお、インタフェースの冗長化は行っておりません。
> >>>>>>>>
> >>>>>>>> ------- 正常時 ここから ------------------
> >>>>>>>> ============
> >>>>>>>> Last updated: Tue Jan 17 15:27:22 2012
> >>>>>>>> Stack: openais
> >>>>>>>> Current DC: it09 - partition with quorum
> >>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>>>> 3 Nodes configured, 3 expected votes
> >>>>>>>> 3 Resources configured.
> >>>>>>>> ============
> >>>>>>>>
> >>>>>>>> Online: [ it08 it09 it10 ]
> >>>>>>>>
> >>>>>>>>         Clone Set: clnApache
> >>>>>>>>             Started: [ it08 it09 ]
> >>>>>>>>         Clone Set: clnDiskd
> >>>>>>>>             Started: [ it08 it09 it10 ]
> >>>>>>>>         Clone Set: clnPing
> >>>>>>>>             Started: [ it08 it09 it10 ]
> >>>>>>>> ------- 正常時 ここまで ------------------
> >>>>>>>>
> >>>>>>>> ------- 異常時 ここから ------------------
> >>>>>>>> ============
> >>>>>>>> Last updated: Tue Jan 17 15:28:05 2012
> >>>>>>>> Stack: openais
> >>>>>>>> Current DC: it09 - partition with quorum
> >>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>>>> 3 Nodes configured, 3 expected votes
> >>>>>>>> 3 Resources configured.
> >>>>>>>> ============
> >>>>>>>>
> >>>>>>>> Online: [ it08 it09 ]
> >>>>>>>> OFFLINE: [ it10 ]
> >>>>>>>>
> >>>>>>>>         Clone Set: clnApache
> >>>>>>>>             Started: [ it08 it09 ]
> >>>>>>>>         Clone Set: clnDiskd
> >>>>>>>>             Started: [ it08 it09 ]
> >>>>>>>>             Stopped: [ prmDiskd:2 ]
> >>>>>>>>         Clone Set: clnPing
> >>>>>>>>             Started: [ it08 it09 ]
> >>>>>>>>             Stopped: [ prmPing:2 ]
> >>>>>>>> ------------------------------------------
> >>>>>>>> ============
> >>>>>>>> Last updated: Tue Jan 17 16:18:28 2012
> >>>>>>>> Stack: openais
> >>>>>>>> Current DC: it10 - partition WITHOUT quorum
> >>>>>>>> Version: 1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87
> >>>>>>>> 3 Nodes configured, 3 expected votes
> >>>>>>>> 3 Resources configured.
> >>>>>>>> ============
> >>>>>>>>
> >>>>>>>> Online: [ it10 ]
> >>>>>>>> OFFLINE: [ it08 it09 ]
> >>>>>>>>
> >>>>>>>>         Clone Set: clnApache
> >>>>>>>>             Started: [ it10 ]
> >>>>>>>>             Stopped: [ prmApache:1 ]
> >>>>>>>>         Clone Set: clnDiskd
> >>>>>>>>             Started: [ it10 ]
> >>>>>>>>             Stopped: [ prmDiskd:0 prmDiskd:1 ]
> >>>>>>>>         Clone Set: clnPing
> >>>>>>>>             Started: [ it10 ]
> >>>>>>>>             Stopped: [ prmPing:0 prmPing:1 ]
> >>>>>>>> ------- 異常時 ここまで ------------------
> >>>>>>>>
> >>>>>>>> よろしくお願い致します。
> >>>>>>>>
> >>>>>>>> _______________________________________________
> >>>>>>>> Linux-ha-japan mailing list
> >>>>>>>> Linux-ha-japan [at] lists
> >>>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>>>>>
> >>>>>>>
> >>>>>>> _______________________________________________
> >>>>>>> Linux-ha-japan mailing list
> >>>>>>> Linux-ha-japan [at] lists
> >>>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>>>
> >>>>>> ___________# crm configure____________________________________
> >>>>>> Linux-ha-japan mailing list
> >>>>>> Linux-ha-japan [at] lists
> >>>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>>>
> >>>>>
> >>>>> _______________________________________________
> >>>>> Linux-ha-japan mailing list
> >>>>> Linux-ha-japan [at] lists
> >>>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>> _______________________________________________
> >>>> Linux-ha-japan mailing list
> >>>> Linux-ha-japan [at] lists
> >>>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>>>
> >>>
> >>> _______________________________________________
> >>> Linux-ha-japan mailing list
> >>> Linux-ha-japan [at] lists
> >>> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >> _______________________________________________
> >> Linux-ha-japan mailing list
> >> Linux-ha-japan [at] lists
> >> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >>
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux-ha-japan [at] lists
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux-ha-japan [at] lists
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>

_______________________________________________
Linux-ha-japan mailing list
Linux-ha-japan [at] lists
http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan

Linux-HA japanese RSS feed   Index | Next | Previous | View Threaded
 
 


Interested in having your list archived? Contact Gossamer Threads
 
  Web Applications & Managed Hosting Powered by Gossamer Threads Inc.