์ ๊ทํ
์ ๊ทํ (Regularization)
- ์ ๊ทํ๋ ๊ณ ๋ถ์ฐ(๊ณผ์ ํฉ, overfitting) ์ ํด๊ฒฐ ๋ฐฉ๋ฒ ์ค ํ๋์
- ๋ ๋ง์ ํ๋ จ ์ธํธ๋ฅผ ํ๋ณดํ๋ ๊ฒ์ด ์ ์ผ ์ข๊ฒ ์ผ๋ ํญ์ ์ด๊ฒ์ด ๊ฐ๋ฅํ์ง๋ ์์. ์ด๋ด ๋ ์๋ํด ๋ณผ ์ ์๋ ๋ฐฉ๋ฒ์ด๋ค.
- ์ ๊ทํ๋ฅผ ๋์
ํ๊ธฐ ์ํด ๋ฐฉ๋ฒ์ ๋ฐ๋ผ ๋น์ฉ ํจ์ J ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์ ์ํ๋ค.
L2 ์ ๊ทํ
J(w,b)=m1โi=1โmโL(y^โ(i),y(i))+2mฮปโโฃโฃwโฃโฃ22โโฃโฃwโฃโฃ22โ=j=1โnxโโwj2โ=wTw
L1 ์ ๊ทํ
J(w,b)=m1โi=1โmโL(y^โ(i),y(i))+2mฮปโโฃโฃwโฃโฃ1โโฃโฃwโฃโฃ1โ=j=1โnxโโโฃwโฃ
- ๋ณดํต L1 ๋ณด๋ค L2๊ฐ ๋ง์ด ์ฌ์ฉ๋จ
- ์ฌ๊ธฐ์ ฮป ๋ ์ ๊ทํ ๊ณ์ (Regaularization Parameter) ๋ก์จ ํ์ดํผ ํ๋ผ๋ฏธํฐ ์ค ํ๋์
๋ ์ด์ด l ์ ๋ํ ๊ฐ์ค์น ์ ๊ทํ
J(w[1],b[1],w[2],b[2],โฆ,w[l],b[l])=m1โi=1โmโL(y^โ(i),y(i))+2mฮปโl=1โLโโฃโฃw[l]โฃโฃF2โ
โฃโฃw[l]โฃโฃF2โ=i=1โn[lโ1]โj=1โn[l]โ(wijโ)2
- ์์ ์ด๋ ค์ ๋ณด์ด์ง๋ง ๋จ์ํ w[l] ์ ๋ชจ๋ ์์๋ค์ ์ ๊ณฑ์ ํฉ
- ๊ฐ์ค์น ๋ฒกํฐ์ ํฌ๊ธฐ๊ฐ ํฌ๋ฉด ๋น์ฉ ํจ์์ ๊ฐ์ด ์ปค์ง๋ค โ ์ฆ ๊ฒฝ์ฌ ํ๊ฐ์ w, b ์ ๊ฐ์ด ๊ฐ์ํ๋ ๋ฐฉํฅ์ผ๋ก ์งํ๋๋ค.
- โฃโฃโ
โฃโฃFโ ์ Frobenius Norm ์ด๋ผ๊ณ ํ๋ค.
(Norm: ๋ฒกํฐ์ ํฌ๊ธฐ)
์ ๊ทํ์ ๊ฒฝ์ฌ ํ๊ฐ, ๊ฐ์ค์น ์
๋ฐ์ดํธ
dw[l]=(fromย backprop)+mฮปโw[l]
- ๊ธฐ์กด ์ญ์ ํ๋ฅผ ํตํด dw[l] ๋ฅผ ๊ตฌํ ํ ์ ๊ทํ ํญ์ ์ถ๊ฐํ๋ค.
w[l]:=w[l]โฮฑdw[l]=w[l]โฮฑ{(fromย backprop)+mฮปโw[l]}=w[l]โฮฑ(fromย backprop)โฮฑmฮปโw[l]
- ์ดํ ๊ฐ์ค์น ์
๋ฐ์ดํธ๋ฅผ ์ํํ๋ฉด ํด๋น ๋ ์ด์ด l ์ ๊ฐ์ค์น ๋ฒกํฐ norm ์ด ํด ์๋ก w[l] ๋ ๋ ๋ง์ด ๊ฐ์๋๋ค.
- ์ด๋ฐ ๋ฐฉ์์ด๊ธฐ ๋๋ฌธ์ L2 ์ ๊ทํ๋ โ๊ฐ์ค์น ๊ฐ์โ ๋ผ๊ณ ๋ ๋ถ๋ฅธ๋ค.