ナッシュ均衡とは

/ゲーム理論

ナッシュ均衡とは、他の人々が戦略を変えない限り、自分の戦略を変える動機(メリット)を持たない状態です。

純粋戦略の場合

純粋戦略とは、各プレイヤが1つの戦略のみ選択できる場合を言います。以下は簡単のため、プレイヤが2人(プレイヤAとプレイヤB)、戦略が2つ(戦略X,戦略Y)の場合で考えます。以下の利得行列では、各プレイヤの戦略と利得の関係を表しています。

例えば、プレイヤAが戦略X、プレイヤBが戦略Yを取る場合の戦略の組を $(X,Y)$、その場合のプレイヤAの利得を $A(X,Y)$、プレイヤBの利得を $B(X,Y)$ で表すとします。

$A\backslash B$ $B:X$ $B:Y$
$A:X$ $A(X,X)$、$B(X,X)$ $A(X,Y)$、$B(X,Y)$
$A:Y$ $A(Y,X)$、$B(Y,X)$ $A(Y,Y)$、$B(Y,Y)$

支配戦略

支配戦略とは、相手のどの戦略に対しても、自分の利得が大きくなる戦略です。例えば、プレイヤAの場合、戦略Xが支配戦力であるためには、以下の2つの条件が成り立つ必要があります。

$$A(X,X)\gt A(Y,X)  ,  A(X,Y)\gt A(Y,Y)$$

弱支配戦略とは、相手のどの戦略に対しても、自分の利得が大きいか等しくなり、かつ、相手の少なくとも1つの戦略に対し、自分の利得が大きくなる戦略です。例えば、プレイヤAの場合、戦略Xが弱支配戦力であるためには、以下の2つの条件が成り立つ必要があります。

$$A(X,X)\ge A(Y,X)  ,  A(X,Y)\ge A(Y,Y)$$

但し、2つの条件の両方が「=」とならないことが必要です。

最適反応戦略

最適反応戦略とは、相手のある戦略のもとで、自分の利得を最大にする戦略です。例えば、プレイヤBが戦略Xを選択した場合、

$$A(X,X)\ge A(Y,X)$$

であれば、プレイヤBの戦略Xに対するプレイヤAの戦略Xは最適反応戦略であると言います。合理的なプレイヤであれば、常に最適反応戦略を選択すると考えます。

ナッシュ均衡

ナッシュ均衡とは、お互いの取る戦略がそれぞれ相手の戦略に対する最適反応戦略となっている場合です。例えば、戦略の組 $(X,X)$ がナッシュ均衡であるとは、以下の条件が成り立っている場合です。

$$A(X,X)\ge A(Y,X)  ,  B(X,X)\ge B(X,Y)$$

このとき、お互い自ら戦略を変えるメリットはないため、安定した組合せになります。

狭義ナッシュ均衡とは、お互いの取る戦略がそれぞれ相手の戦略に対する唯一の最適反応戦略となっているナッシュ均衡です。例えば、戦略の組 $(X,X)$ が狭義ナッシュ均衡であるとは、以下の条件が成り立っている場合です。

$$A(X,X)\gt A(Y,X)  ,  B(X,X)\gt B(X,Y)$$

混合戦略の場合

混合戦略とは、各プレイヤが複数の戦略の組合せを選択できる場合を言います。純粋戦略の場合はナッシュ均衡が存在しないケースがありますが、混合戦略の場合は常にナッシュ均衡が存在することが以下のように示されます。

プレイヤAが戦略Xをとる割合を $p$($0\le p\le1$)、プレイヤBが戦略Xをとる割合を $q$($0\le q\le1$)とすると、利得行列の各戦略の組が起こりうる割合は以下になります。

$A\backslash B$ $B:X$ $B:Y$
$A:X$ $pq$ $p(1-q)$
$A:Y$  $(1-p)q$ $(1-p)(1-q)$
プレイヤAの最適反応戦略

プレイヤAの利得を計算します。

$$pqA(X,X)+p(1-q)A(X,Y)+(1-p)qA(Y,X)+(1-p)(1-q)A(Y,Y)$$

これは、$\alpha,\beta,\gamma,\delta$ を定数とすると、以下にのように整理することができます。

$$(\alpha q-\beta)p+\gamma q+\delta$$

ここで、$p$ の係数($\alpha q-\beta$)に注目すると、これが正の場合は $p$ が大きいほど($p=1$)、負の場合は $p$ が小さいほど($p=0$)プレイヤAの利得は大きくなります。この分岐点は、$q$ が以下の値の時です。

$$q=\frac{\beta}{\alpha}\equiv q_c$$

$\alpha$ が正のときは $q\gt q_c$、負のときは $q\lt q_c$ の場合に $p$ の係数は正になるため、プレイヤAは $p=1$(戦略Xのみ選択)とすることで利得を最大にできます。そうでない場合は、$p=0$(戦略Yのみ選択)となります。

これをグラフで表すと以下になります。プレイヤAの最適反応戦略($q\gt q_c$ で $p=1$ の場合)は青線で表されます。

プレイヤBの最適反応戦略

プレイヤBでも同様の式が成り立つため、プレイヤBの利得は、

$$pqB(X,X)+p(1-q)B(X,Y)+(1-p)qB(Y,X)+(1-p)(1-q)B(Y,Y)$$$$=(\alpha’ p-\beta’)q+\gamma’ p+\delta’$$

分岐点は以下になり、

$$p=\frac{\beta’}{\alpha’}\equiv p_c$$

$\alpha’$ が正のときは $p\gt p_c$、負のときは $p\lt p_c$ の場合に $q$ の係数は正になるため、プレイヤBは $q=1$(戦略Xのみ選択)とすることで利得を最大にできます。そうでない場合は、$q=0$(戦略Yのみ選択)となります。

従って、プレイヤBの最適反応戦略($p\gt p_c$ で $q=1$ の場合)は上図の緑線で表されます。このときナッシュ均衡は、両者の最適反応戦略の交点で示されます。

 

応用数学
物理数学、計算数学、情報・暗号、機械学習、金融工学、ゲーム理論
散策路TOP
古典物理、量子力学、物性論、数学、応用数学、力学、電磁気学、相対論、熱・統計力学、解析学、代数学、幾何学、統計分析、情報

 

タイトルとURLをコピーしました