๋”ฅ RNN

๋” ๊นŠ์€ ๋ ˆ์ด์–ด์˜ RNN (Deep RNN)

  • ๊ธฐ์กด RNN์—์„œ๋Š” ํ•œ ๊ฐœ์˜ ๋ ˆ์ด์–ด๋กœ ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ๋งŒ ๊ฑฐ์ณ ์ถœ๋ ฅ์„ ๋งŒ๋“ค์—ˆ๋‹ค.
y^<t>=g(Wy[a<tโˆ’1>,x<t>]+by)\hat{y}^{<t>} = g(W_y[a^{<t-1>}, x^{<t>}] + b_y)
  • ์—ฌ๊ธฐ์„œ a<tโˆ’1>a^{<t-1>}๋Š” ์ด์ „ ์‹œ์ ์˜ hidden state์ด๊ณ , x<t>x^{<t>}๋Š” ํ˜„์žฌ ์‹œ์ ์˜ ์ž…๋ ฅ๊ฐ’์ด๋‹ค.

  • ๋”ฅ RNN์—์„œ๋Š” ์—ฌ๋Ÿฌ ์ธต์˜ RNN์ด ์Œ“์—ฌ ๋” ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•œ๋‹ค. ๊ฐ ๋ ˆ์ด์–ด๋Š” ์ด์ „ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ๊ฐ’์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„๋“ค์—ฌ, ์—ฌ๋Ÿฌ ๋ฒˆ์˜ ์—ฐ์‚ฐ์„ ๊ฑฐ์นœ ํ›„ ์ตœ์ข… ์ถœ๋ ฅ์„ ๋งŒ๋“ ๋‹ค.

a[l]<t>=g(Wa[l][a[l]<tโˆ’1>,a[lโˆ’1]<t>]+ba[l])a^{[l]<t>} = g(W_a^{[l]}[a^{[l]<t-1>}, a^{[l-1]<t>}] + b_a^{[l]})
  • ์—ฌ๊ธฐ์„œ a[l]<t>a^{[l]<t>}๋Š” ll๋ฒˆ์งธ ๋ ˆ์ด์–ด์˜ tt ์‹œ์ ์—์„œ์˜ hidden state๋ฅผ ๋‚˜ํƒ€๋‚ด๋ฉฐ, a[lโˆ’1]<t>a^{[l-1]<t>}๋Š” ์ด์ „ ๋ ˆ์ด์–ด์˜ ์ถœ๋ ฅ์„ ์˜๋ฏธํ•œ๋‹ค.

  • ์ด ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋”ฅ RNN์€ ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ์ด ์•„๋‹Œ, ์—ฌ๋Ÿฌ ์ธต์„ ํ†ตํ•ด ๋”์šฑ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•œ๋‹ค.
  • ๋ ˆ์ด์–ด์˜ ๋งˆ์ง€๋ง‰ ์ถœ๋ ฅ๊ฐ’ a[L]<t>a^{[L]<t>}๋ฅผ ๋ฐ”๋กœ y^<t>\hat{y}^{<t>}๋กœ ๋ณ€ํ™˜ํ•ด ์ถœ๋ ฅํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ๋” ๋งŽ์€ ๋ ˆ์ด์–ด๋ฅผ ์Œ“์œผ๋ฉด ๋” ๋ณต์žกํ•˜๊ณ  ์ถ”์ƒ์ ์ธ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค.