BFGS法

数理最適化において、ブロイデン・フレッチャー・ゴールドファーブ・シャンノ法(: Broyden–Fletcher–Goldfarb–Shanno algorithm)、略してBFGS法は、非制限非線形最適化問題に対する反復的解法の一つである[1]。関連の深いDFP法と同様、BFGS法は勾配のプレコンディショニング[訳語疑問点]曲率の情報を用いて行うことにより降下方向を決定する。その際、損失関数ヘッセ行列の推定値を勾配(またはその推定値)のみを用いて(一般化)割線法により漸進的に改善する[2]

BFGS法における曲率行列の更新には逆行列の評価を要さないため、計算複雑度(英語版) O ( n 2 ) {\displaystyle {\mathcal {O}}(n^{2})} に留まり、ニュートン法 O ( n 3 ) {\displaystyle {\mathcal {O}}(n^{3})} よりも高速である。L-BFGS法もよく用いられ、メモリ使用量を限定できるため、多変数(e.g. >1000)問題に対する解法としてより適している。BFGS-B法はシンプルなボックス拘束を扱える[3]

このアルゴリズムの名前は、チャールズ・ジョージ・ブロイデン(英語版)、ロジャー・フレッチャー、ドナルド・ゴールドファーブ(英語版)デイビッド・シャンノ(英語版)に因む[4][5][6]

理論的根拠

x {\displaystyle {\boldsymbol {x}}} R n {\displaystyle \mathbb {R} ^{n}} 上のベクトル、 f ( x ) {\displaystyle f({\boldsymbol {x}})} 微分可能なスカラー値関数とし、 x {\displaystyle {\boldsymbol {x}}} の取り得る値に制限はないものとして、 f ( x ) {\displaystyle f({\boldsymbol {x}})} を最小化する最適化問題を考える。

BFGS法は初期推定値 x 0 {\displaystyle {\boldsymbol {x}}_{0}} から始め、各ステージ毎に反復的により良い推定値へと更新していく。

ステージkにおける降下方向(英語版) pkはニュートン方程式に類似した次の方程式を解くことにより得られる。

B k p k = f ( x k ) {\displaystyle B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})}

ここでBkxkにおけるヘッセ行列の推定値であり、各ステージごとにxkにおける目的関数の勾配 f ( x k ) {\displaystyle \nabla f({\boldsymbol {x}}_{k})} を用いて反復的に更新される。降下方向pkを得たのち、この方向に向けて直線探索を行い、 f ( x k + γ p k ) {\displaystyle f({\boldsymbol {x}}_{k}+\gamma {\boldsymbol {p}}_{k})} を最小とするようなスカラーγ > 0を求め、次の点xk+1を決定する。

Bkの更新においては、以下の式であらわされる準ニュートン条件が課せられる。

B k + 1 ( x k + 1 x k ) = f ( x k + 1 ) f ( x k ) {\displaystyle B_{k+1}({\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k})=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}

ここで y k = f ( x k + 1 ) f ( x k ) {\displaystyle {\boldsymbol {y}}_{k}=\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})} および s k = x k + 1 x k {\displaystyle {\boldsymbol {s}}_{k}={\boldsymbol {x}}_{k+1}-{\boldsymbol {x}}_{k}} とおくと、Bk+1は以下の正割方程式を満たす。

B k + 1 s k = y k {\displaystyle B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}}

Bk+1が正定値行列であるためには曲率条件skyk>0が満たされる必要がある。この条件は正割方程式に左からskをかけることにより検証できる。目的関数が強凸関数でない場合、この条件は明示的に課す必要があり、これはたとえばxk+1を決定する際にウルフ条件(英語版)を満たす点を選べばよい。

xk+1におけるヘッセ行列を全て計算するかわりに、ステージkにおける推定値に次のように2つの行列を足すことによりBk+1を計算する。

B k + 1 = B k + U k + V k {\displaystyle B_{k+1}=B_{k}+U_{k}+V_{k}}

UkおよびVkはどちらも階数1の対称行列であるが、これらの和を取ることにより階数2の対称行列を用いて更新することとなる。対称ランク1(英語版)法と比べ、BFGS法とDFP法はどちらも階数2の行列を更新に用いる点が異なる。より単純な手法である対称ランク1法は階数1の行列を用いて更新を行うが、正定値性が保証されない。Bkの対称性と正定値性を維持するため、更新式は B k + 1 = B k + α u u + β v v {\displaystyle B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }} のように選ぶ。正割条件 B k + 1 s k = y k {\displaystyle B_{k+1}{\boldsymbol {s}}_{k}={\boldsymbol {y}}_{k}} を課すと、 u = y k {\displaystyle {\boldsymbol {u}}={\boldsymbol {y}}_{k}} および v = B k s k {\displaystyle {\boldsymbol {v}}=B_{k}{\boldsymbol {s}}_{k}} として以下を得る[7]

α = 1 y k s k {\displaystyle \alpha ={\frac {1}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}}
β = 1 s k B k s k {\displaystyle \beta =-{\frac {1}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}}

最後に、 αおよびβ B k + 1 = B k + α u u + β v v {\displaystyle B_{k+1}=B_{k}+\alpha {\boldsymbol {u}}{\boldsymbol {u}}^{\top }+\beta {\boldsymbol {v}}{\boldsymbol {v}}^{\top }} に代入するとBk+1の更新式は以下のように書ける。

B k + 1 = B k + y k y k y k s k B k s k s k B k s k B k s k {\displaystyle B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}}

アルゴリズム

非線形関数 f : R n R {\displaystyle f:\mathbb {R} ^{n}\to \mathbb {R} } を対称とする非制限最適化問題 minimize x R n f ( x ) {\displaystyle {\begin{aligned}{\underset {{\boldsymbol {x}}\in \mathbb {R} ^{n}}{\text{minimize}}}\quad &f({\boldsymbol {x}})\end{aligned}}} を考える。

初期推定解 x 0 R n {\displaystyle {\boldsymbol {x}}_{0}\in \mathbb {R} ^{n}} および初期推定ヘッセ行列 B 0 R n × n {\displaystyle B_{0}\in \mathbb {R} ^{n\times n}} から始め、次の各ステップを反復することによりxkは解に収束する。

  1. 降下方向pk B k p k = f ( x k ) {\displaystyle B_{k}{\boldsymbol {p}}_{k}=-\nabla f({\boldsymbol {x}}_{k})} を解くことにより求める。
  2. 1次元最適化(直線探索)を行い、前ステップで求めた降下方向に向う許容しうるステップサイズαkを求める。厳密な直線探索が行われた場合、 α k = arg min f ( x k + α p k ) {\displaystyle \alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})} となる。実用上はαkがウルフ条件を満たすことをもって許容する、非厳密な直線探索で十分なことが多い。
  3. s k = α k p k {\displaystyle {\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}} とし、 x k + 1 = x k + s k {\displaystyle {\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}} により推定解を更新する。
  4. y k = f ( x k + 1 ) f ( x k ) {\displaystyle {\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}} を計算する。
  5. B k + 1 = B k + y k y k y k s k B k s k s k B k s k B k s k {\displaystyle B_{k+1}=B_{k}+{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}-{\frac {B_{k}{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }B_{k}^{\top }}{{\boldsymbol {s}}_{k}^{\top }B_{k}{\boldsymbol {s}}_{k}}}} により推定ヘッセ行列を更新する。

何らかの基準値ε > 0のもと、勾配のノルム | | f ( x k ) | | ε {\displaystyle ||\nabla f({\boldsymbol {x}}_{k})||\leq \varepsilon } を満たしたとき解が収束したものとみなしアルゴリズムを終了する。

B 0 = I {\displaystyle B_{0}=I} のように選んだ場合、最初のステップは最急降下法と等価となるが、以降のステップはBkがヘッセ行列を推定することにより徐々に改善される。

このアルゴリズムのステップ1はBkの逆行列を用いて実行されるが、この逆行列はステップ5でSherman–Morrisonの公式(英語版) を用いることにより次のように効率的に求めることができる。

B k + 1 1 = ( I s k y k y k s k ) B k 1 ( I y k s k y k s k ) + s k s k y k s k {\displaystyle B_{k+1}^{-1}=\left(I-{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)B_{k}^{-1}\left(I-{\frac {{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}\right)+{\frac {{\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top }}{{\boldsymbol {y}}_{k}^{\top }{\boldsymbol {s}}_{k}}}}

この計算は B k 1 {\displaystyle B_{k}^{-1}} が対称行列であり、 y k B k 1 y k {\displaystyle {\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k}} および skykがスカラーであることをもちいて次のように展開でき、一時行列を要せず実行することができる。

B k + 1 1 = B k 1 + ( s k y k + y k B k 1 y k ) ( s k s k ) ( s k y k ) 2 B k 1 y k s k + s k y k B k 1 s k y k . {\displaystyle B_{k+1}^{-1}=B_{k}^{-1}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {B_{k}^{-1}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }B_{k}^{-1}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}.}

したがって、逆行列をもとめるための計算を一切することなく、ヘッセ行列の逆行列 H k = def B k 1 {\displaystyle H_{k}{\overset {\operatorname {def} }{=}}B_{k}^{-1}} そのものを推定することが可能である[8]

初期推定解x0、ヘッセ行列の逆行列の推定値H0から始め、次の各ステップを反復することによりxkは解へと収束する。

  1. 降下方向pk p k = H k f ( x k ) {\displaystyle {\boldsymbol {p}}_{k}=-H_{k}\nabla f({\boldsymbol {x}}_{k})} により得る。
  2. 1次元最適化(直線探索)を行い、前ステップで求めた降下方向に向う許容しうるステップサイズαkを求める。厳密な直線探索が行われた場合、 α k = arg min f ( x k + α p k ) {\displaystyle \alpha _{k}=\arg \min f({\boldsymbol {x}}_{k}+\alpha {\boldsymbol {p}}_{k})} となる。実用上はαkがウルフ条件を満たすことをもって許容する、非厳密な直線探索で十分なことが多い。
  3. s k = α k p k {\displaystyle {\boldsymbol {s}}_{k}=\alpha _{k}{\boldsymbol {p}}_{k}} とし、 x k + 1 = x k + s k {\displaystyle {\boldsymbol {x}}_{k+1}={\boldsymbol {x}}_{k}+{\boldsymbol {s}}_{k}} により推定解を更新する。
  4. y k = f ( x k + 1 ) f ( x k ) {\displaystyle {\boldsymbol {y}}_{k}={\nabla f({\boldsymbol {x}}_{k+1})-\nabla f({\boldsymbol {x}}_{k})}} を計算する。
  5. H k + 1 = H k + ( s k y k + y k H k y k ) ( s k s k ) ( s k y k ) 2 H k y k s k + s k y k H k s k y k {\displaystyle H_{k+1}=H_{k}+{\frac {({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}+{\boldsymbol {y}}_{k}^{\top }H_{k}{\boldsymbol {y}}_{k})({\boldsymbol {s}}_{k}{\boldsymbol {s}}_{k}^{\top })}{({\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k})^{2}}}-{\frac {H_{k}{\boldsymbol {y}}_{k}{\boldsymbol {s}}_{k}^{\top }+{\boldsymbol {s}}_{k}{\boldsymbol {y}}_{k}^{\top }H_{k}}{{\boldsymbol {s}}_{k}^{\top }{\boldsymbol {y}}_{k}}}} によりヘッセ行列の逆行列の推定値を計算する。

最尤推定ベイズ推定などの統計推定問題においては、最終的なヘッセ行列の逆行列を用いて解の信頼区間もしくは確信区間を推定することができる [要出典]。しかし、これらの量は正確には真のヘッセ行列により定義されるものであり、BFGS近似は真のヘッセ行列に収束しない場合がある[9]

発展

BFGS更新公式は曲率skykが常に正であり、ゼロから離れた下界があることに強く依拠している。この条件は凸な対称関数においてウルフ条件を用いた直線探索を用いる場合は満たされるが、実際の問題(たとえば逐次二次計画法)では負やほぼゼロの曲率があらわれることがしばしばある。このようなことは非凸関数を対象とする場合や直線探索ではなく信頼領域アプローチをとった場合におこることがある。この場合、BFGS法は誤った値をあたえることがある。

このような場合には、減衰BFGS更新[10]などと呼ばれる、skおよび/またはykを修正して頑健にした更新式が用いられることがある。

実装

オープンソースの実装として有名なものは以下のようなものがあげられる。

  • ALGLIBC++およびC#用のBFGSおよびL-BFGS法を実装する。
  • GNU Octavefsolve関数は信頼領域をもちいた一種のBFGS法を用いる。
  • GSLはgsl_multimin_fdfminimizer_vector_bfgs2関数としてBFGSを実装している[11]
  • R言語では、、BFGS法(および矩形拘束を扱えるL-BFGS-B法)が基本関数optim()のオプションとして実装されている[12]
  • SciPyでは、scipy.optimize.fmin_bfgs関数がBFGS法を実装している[13]。パラメータLにとても大きな数を指定することにより、なんらかのL-BFGS法を実行することもできる。
  • Juliaでは、Optim.jlパッケージにBFGSおよびL-BFGSが実装されている[14]

プロプライエタリな実装としては以下のようなものがあげられる。

  • 大規模非線形最適化ソフトウェアArtelys KnitroはBFGS法およびL-BFGS法の両方を実装する。
  • MATLAB Optimization Toolboxでは、fminunc関数がBFGS法を3次直線探索と組み合わせたアルゴリズムを「中規模スケール」の問題向けに実装している。
  • MathematicaにはBFGS法が含まれる。
  • LS-DYNAもBFGS法を用いて陰解を求めている。

関連項目

出典

  1. ^ Fletcher, Roger (1987), Practical Methods of Optimization (2nd ed.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8, https://archive.org/details/practicalmethods0000flet 
  2. ^ Dennis, J. E. Jr.; Schnabel, Robert B. (1983), “Secant Methods for Unconstrained Minimization”, Numerical Methods for Unconstrained Optimization and Nonlinear Equations, Englewood Cliffs, NJ: Prentice-Hall, pp. 194–215, ISBN 0-13-627216-9, https://books.google.com/books?id=ksvJTtJCx9cC&pg=PA194 
  3. ^ Byrd, Richard H.; Lu, Peihuang; Nocedal, Jorge; Zhu, Ciyou (1995), “A Limited Memory Algorithm for Bound Constrained Optimization”, SIAM Journal on Scientific Computing 16 (5): 1190–1208, doi:10.1137/0916069, http://www.ece.northwestern.edu/~nocedal/PSfiles/limited.ps.gz 
  4. ^ Fletcher, R. (1970), “A New Approach to Variable Metric Algorithms”, Computer Journal 13 (3): 317–322, doi:10.1093/comjnl/13.3.317 
  5. ^ Goldfarb, D. (1970), “A Family of Variable Metric Updates Derived by Variational Means”, Mathematics of Computation 24 (109): 23–26, doi:10.1090/S0025-5718-1970-0258249-6 
  6. ^ Shanno, David F. (July 1970), “Conditioning of quasi-Newton methods for function minimization”, Mathematics of Computation 24 (111): 647–656, doi:10.1090/S0025-5718-1970-0274029-X, MR274029 
  7. ^ Fletcher, Roger (1987), Practical methods of optimization (2nd ed.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8, https://archive.org/details/practicalmethods0000flet 
  8. ^ Nocedal, Jorge; Wright, Stephen J. (2006), Numerical Optimization (2nd ed.), Berlin, New York: Springer-Verlag, ISBN 978-0-387-30303-1 
  9. ^ Ge, Ren-pu; Powell, M. J. D. (1983). “The Convergence of Variable Metric Matrices in Unconstrained Optimization”. Mathematical Programming 27 (2). doi:10.1007/BF02591941. 
  10. ^ Jorge Nocedal; Stephen J. Wright (2006), Numerical Optimization 
  11. ^ “GNU Scientific Library — GSL 2.6 documentation”. www.gnu.org. 2020年11月22日閲覧。
  12. ^ “R: General-purpose Optimization”. stat.ethz.ch. 2020年11月22日閲覧。
  13. ^ “scipy.optimize.fmin_bfgs — SciPy v1.5.4 Reference Guide”. docs.scipy.org. 2020年11月22日閲覧。
  14. ^ “(L-)BFGS · Optim” (英語). julianlsolvers.github.io. 2024年8月17日閲覧。

関連文献

  • Avriel, Mordecai (2003), Nonlinear Programming: Analysis and Methods, Dover Publishing, ISBN 978-0-486-43227-4 
  • Bonnans, J. Frédéric; Gilbert, J. Charles; Lemaréchal, Claude; Sagastizábal, Claudia A. (2006), “Newtonian Methods”, Numerical Optimization: Theoretical and Practical Aspects (Second ed.), Berlin: Springer, pp. 51–66, ISBN 3-540-35445-X 
  • Fletcher, Roger (1987), Practical Methods of Optimization (2nd ed.), New York: John Wiley & Sons, ISBN 978-0-471-91547-8, https://archive.org/details/practicalmethods0000flet 
  • Luenberger, David G.; Ye, Yinyu (2008), Linear and nonlinear programming, International Series in Operations Research & Management Science, 116 (Third ed.), New York: Springer, pp. xiv+546, ISBN 978-0-387-74502-2, MR2423726 
  • Kelley, C. T. (1999), Iterative Methods for Optimization, Philadelphia: Society for Industrial and Applied Mathematics, pp. 71–86, ISBN 0-89871-433-8 

外部リンク

  • Source code of high-precision BFGS
非線形(無制約)
… 関数 
勾配法
収束性
準ニュートン法
その他の求解法
ヘッセ行列
  • 最適化におけるニュートン法(英語版)
The graph of a strictly concave quadratic function is shown in blue, with its unique maximum shown as a red dot. Below the graph appears the contours of the function: The level sets are nested ellipses.
Optimization computes maxima and minima.
非線形(制約付き)
一般
微分可能
凸最適化
凸縮小化
  • 切除平面法(英語版、デンマーク語版、ドイツ語版、スペイン語版)
  • 簡約勾配法
  • 劣勾配法(英語版)
線型 および
二次
内点法
ベイズ-交換
  • 単体法
  • 改訂単体法(英語版)
  • 十文字法(英語版)
  • レムケの主ピボット操作法(英語版)
組合せ最適化
系列範例
(Paradigms)
グラフ理論
最小全域木
最大フロー問題
メタヒューリスティクス
  • カテゴリ(最適化 • アルゴリズム) • ソフトウェア(英語版)