Mètodes d'aprenentatge de gradient proximal

Els mètodes d'aprenentatge de gradient proximal (divisió cap endavant cap enrere) són una àrea d'investigació en l'optimització i la teoria de l'aprenentatge estadístic que estudia algorismes per a una classe general de problemes de regularització convex on la penalització de regularització pot no ser diferenciable. Un d'aquests exemples és 1 {\displaystyle \ell _{1}} regularització (també coneguda com Lasso) de la forma

min w R d 1 n i = 1 n ( y i w , x i ) 2 + λ w 1 ,  on  x i R d  i  y i R . {\displaystyle \min _{w\in \mathbb {R} ^{d}}{\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-\langle w,x_{i}\rangle )^{2}+\lambda \|w\|_{1},\quad {\text{ on }}x_{i}\in \mathbb {R} ^{d}{\text{ i }}y_{i}\in \mathbb {R} .}

Els mètodes de gradient proximal ofereixen un marc general per resoldre problemes de regularització a partir de la teoria de l'aprenentatge estadístic amb penalitzacions que s'adapten a una aplicació de problema específica.[1][2] Aquestes penalitzacions personalitzades poden ajudar a induir una certa estructura en les solucions de problemes, com ara l'esparsa (en el cas de lazo) o l'estructura de grup (en el cas de lasso de grup).

Els mètodes de gradient proximal són aplicables en una gran varietat d'escenaris per resoldre problemes d'optimització convex de la forma

min x H F ( x ) + R ( x ) , {\displaystyle \min _{x\in {\mathcal {H}}}F(x)+R(x),}

on F {\displaystyle F} és convex i diferenciable amb el gradient continu de Lipschitz, R {\displaystyle R} és una funció semicontinua inferior convexa que possiblement no és diferenciable, i H {\displaystyle {\mathcal {H}}} és un conjunt, normalment un espai de Hilbert. El criteri habitual de x {\displaystyle x} minimitza F ( x ) + R ( x ) {\displaystyle F(x)+R(x)} si i només si ( F + R ) ( x ) = 0 {\displaystyle \nabla (F+R)(x)=0} a la configuració convexa, diferenciable ara es substitueix per

0 ( F + R ) ( x ) , {\displaystyle 0\in \partial (F+R)(x),}

on φ {\displaystyle \partial \varphi } denota el subdiferencial d'una funció convexa de valor real φ {\displaystyle \varphi } .

Donada una funció convexa φ : H R {\displaystyle \varphi :{\mathcal {H}}\to \mathbb {R} } un operador important a tenir en compte és el seu operador proximal prox φ : H H {\displaystyle \operatorname {prox} _{\varphi }:{\mathcal {H}}\to {\mathcal {H}}} definit per

prox φ ( u ) = arg min x H φ ( x ) + 1 2 u x 2 2 , {\displaystyle \operatorname {prox} _{\varphi }(u)=\operatorname {arg} \min _{x\in {\mathcal {H}}}\varphi (x)+{\frac {1}{2}}\|u-x\|_{2}^{2},}

que està ben definit per l'estricta convexitat de la 2 {\displaystyle \ell _{2}} norma. L'operador proximal es pot veure com una generalització d'una projecció.[3][4][5] Veiem que l'operador de proximitat és important perquè x {\displaystyle x^{*}} és un minimitzador del problema min x H F ( x ) + R ( x ) {\displaystyle \min _{x\in {\mathcal {H}}}F(x)+R(x)} si i només si

x = prox γ R ( x γ F ( x ) ) , {\displaystyle x^{*}=\operatorname {prox} _{\gamma R}\left(x^{*}-\gamma \nabla F(x^{*})\right),} on γ > 0 {\displaystyle \gamma >0} és qualsevol nombre real positiu.[6]

Referències

  1. Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.
  2. Mosci, S.; Rosasco, L.; Matteo, S.; Verri, A.; Villa, S. Machine Learning and Knowledge Discovery in Databases, 6322, 2010, pàg. 418–433. DOI: 10.1007/978-3-642-15883-4_27 [Consulta: free].
  3. Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.
  4. Moreau, J.-J. Comptes Rendus de l'Académie des Sciences, Série A, 255, 1962, pàg. 2897–2899.
  5. Bauschke, H.H., and Combettes, P.L.. Convex analysis and monotone operator theory in Hilbert spaces (en anglès). Springer, 2011. 
  6. Combettes, Patrick L.; Wajs, Valérie R. Multiscale Model. Simul., 4, 4, 2005, pàg. 1168–1200. DOI: 10.1137/050626090.