๋ถ๋ฅ ์ ์ฒด๋ณด๊ธฐ39 [๋ ผ๋ฌธ ์ด๋ก๐] Attention is All you Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. ์ง๋ฐฐ์ ์ธ ์ํ์ค ๋ณํ ๋ชจ๋ธ(dominant sequence transduction models)์ encoder ๋ฐ decoder๋ฅผ ํฌํจํ๋ ๋ณต์กํ ์ํ ์ ๊ฒฝ๋ง ๋๋ ์ปจ๋ณผ๋ฃจ์ ์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค. ์ต๊ณ ์ ์ฑ๋ฅ์ ์๋ํ๋ ๋ชจ๋ธ๋ค์ ์ดํ ์ ๋ฉ์ปค๋์ฆ(attention mechanis.. 2024. 1. 24. [boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋ boostcourse๋ฅผ ํตํด KAIST ์ฃผ์ฌ๊ฑธ ๊ต์๋์ "์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ" ๊ฐ์๋ฅผ ๋ฃ๊ฒ ๋์๋ค. ์์ฆ ์ฐ๊ตฌ์ค์์ ๊ณต๋ถํ๊ฒ ๋ ๋ถ์ผ๊ฐ ์ธ์ด๋ชจ๋ธ์ธ๋ฐ, ์ธ์ด๋ชจ๋ธ์ ๋ค์ด๊ฐ๊ธฐ์ ์์์ ๋ฅ๋ฌ๋๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณต๋ถ๋ฅผ ์์ํด์ผํด์ ๋ฌด๋ฃ ๊ฐ์๋ฅผ ์์นํ๋ค๊ฐ ์๊ฒ ๋์๋ค. ์ฒซ๋ฒ์งธ ๊ฐ์๋ "์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋"์๋๋ฐ, ์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ๋ฌด์์ธ์ง๋ฟ ์๋๋ผ ๊ธฐ์ ์ด ํ์ฉ๋๋ ๋ถ์ผ์ ๊ด๋ จ ํํ๊น์ง ์์๋ณด๋ ์์ผ๋ก์ด ํ์ต์ ํฐ ๋๊ธฐ๋ถ์ฌ๊ฐ ๋์๋ค. ํนํ ํ ์คํธ ๋ง์ด๋ ๊ธฐ์ ์์ computational social science(๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฐ ์ฌํ๊ณผํ)๊ฐ ๋์ ์ ๋ง ์ ๋ง์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์ด ์์ผ๋ก์ ๊ณต๋ถํ ๋ถ์ผ์ ๋ํ ๊ธฐ๋๊ฐ ํฌ๋ค. ๊ฐ์ ํผํผํฐ๋ ๊ตฌํ ์ ์์ง๋ง, ์์ฝ๋ ๋ด์ฉ์ด ํจ๊ป ๊ณต์ ๋์ด ๋ณต์ตํ ๋ ์ฐธ๊ณ ํด.. 2024. 1. 24. [pytorch zero to all ๊ฐ์ ๋ด์ฉ ์ ๋ฆฌ] 3๊ฐ gradient descent ๊ฐ์ ์ฃผ์ : 3๊ฐ Gradient descendent - ๊ฒฝ์ฌ ํ๊ฐ๋ฒ ๊ฐ์ ๋ชฉํ : ๊ฒฝ์ฌํ๊ฐ๋ฒ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด๊ณ ์์ค์ ์ต์ํํ๋ W๊ฐ์ ์ฐพ๋ ๊ณผ์ ๊ณผ ๋ฐฉ๋ฒ์ ์์๋ณธ๋ค. ๋ํ ๋ฐฉ์ ์์ ์ฌ์ฉํ์ฌ ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํ๊ณ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ด์ผ๊ธฐํ๋ค. - ๐ฏ The goal of training or learning in machine learning is to find the optimal value of W that minimizes the loss function. - ๐งญ The gradient descent algorithm provides a systematic way to identify the optimal value of W by iteratively updating the w.. 2024. 1. 14. [pytorch zero to all ๊ฐ์ ๋ด์ฉ ์ ๋ฆฌ] 2๊ฐ Linear Model - ์ ํ ๋ชจ๋ธ ์บก์คํค ์ฃผ์ ๊ฐ LLM์ ์ด์ฉํ ๊ฒ์ ์์ง ์ ์์ผ๋ก ์ขํ์ง๋ฉด์ ํ์ดํ ์น ์คํฐ๋๋ฅผ ๊ฒจ์ธ๋ฐฉํ๋์ ์์ํ์ต๋๋ค. ๊ต์๋๊ป์ ๊ณต์ ํด์ฃผ์ pytorch zero to all ๊ฐ์๋ฅผ ์๊ฐํ๋ฉด์ ์ ๋ฆฌํ ๋ด์ฉ์ ๊ณต์ ํ๊ณ ์ ํฉ๋๋ค. ์ํ์ ์ธ ๋ด์ฉ๊ณผ ์๋ฆฌ์ ๋ํด์๋ ๊ฐ๋จํ ์ ๋ฆฌํ๊ณ ๊ฐ์์ ์ฒ์ ๋ณด๋ ์ฃผ์ ์์ฃผ๋ก ์ ๋ฆฌํ ๋ถ๋ถ์ด๋ ์ ์ฒ๋ผ ํ์ดํ ์น์ ์ ๋ก๋ฒ ์ด์ค์๋ ๋ถ๋ค๊ป์๋ ํ๋ฒ ์ฝ๊ณ ํ์ดํ ์น ์คํฐ๋๋ฅผ ์์ํ์๋๊ฒ ๋์์ด ๋ ๊ฒ ๊ฐ์ต๋๋ค. 13๊ฐ๊น์ง ๋ด์ฉ์ ์ ๋ถ ์ฌ๋ฆฌ๊ณ ์ดํ ์ถ๊ฐ์ ์ธ ์คํฐ๋๋ฅผ ์งํํ ๋๋ง๋ค ์๊ฐ์ ๋ด์ด ๊ณต๋ถ ๋ด์ฉ์ ์ ๋ฆฌํ๊ณ ์ ํฉ๋๋ค. ๊ฐ์ ๋ชฉํ : ํ์ดํ ์น์ ์ ํ ๋ชจ๋ธ ๊ฐ๋ ์ ์ด์ผ๊ธฐํ๊ณ ์ง๋ ๋จธ์ ๋ฌ๋์์ ์ ํ ๋ชจ๋ธ์ด ์ฌ์ฉ๋๋ ๋ฐฉ๋ฒ๊ณผ ๋ชจ๋ธํ์ต ๋ฐ ํ๊ฐ ๊ณผ์ ์ ์ค๋ช ํ๋ค. ๋ํ ์์ค ๊ณ์ฐ๊ณผ ํ๊ท ์ ๊ณฑ์ค์ฐจ(MSE)๋ฅผ ์ฌ์ฉํ์ฌ.. 2024. 1. 7. ์ด์ 1 2 3 4 5 ยทยทยท 10 ๋ค์