์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- AI
- ์์ด๋ฆฌํฌ
- ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ
- DeepSpeed
- Bag-of-Words
- SQLD ๋ฒผ๋ฝ์น๊ธฐ
- Python
- C++
- llm
- interpolate()
- Naive Bayes Classifier for Document Classification
- ํ์ธํ๋ ๋ฉ๋ชจ๋ฆฌ ํด๊ฒฐ
- ์ฑ์งํผํฐ์ ์ ๋ฌด์๋ํ
- tail()
- sklearn.ensemble
- Til
- ์คํ์ ๋ฐฐ์ด ํธ์ํ๊ธฐ
- Collection if
- ๋ฐ์ดํฐ ๊ฒฐ์ธก์น
- ๋น์ ๊ณต์ ๋น ๋ถ๊ธฐ ํฉ๊ฒฉ
- pytorch zero to all
- sqld
- inplace=True
- colab
- list
- BoostCourse
- head()
- ๋ฐ์ดํฐ ์๊ฐํ
- ์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ
- ๋ ผ๋ฌธ์ด๋ก
- Today
- Total
hyerong's Dev_world๐ก
[๋ ผ๋ฌธ ์ด๋ก๐] Attention is All you Need ๋ณธ๋ฌธ
The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that
include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism.
์ง๋ฐฐ์ ์ธ ์ํ์ค ๋ณํ ๋ชจ๋ธ(dominant sequence transduction models)์ encoder ๋ฐ decoder๋ฅผ ํฌํจํ๋
๋ณต์กํ ์ํ ์ ๊ฒฝ๋ง ๋๋ ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
์ต๊ณ ์ ์ฑ๋ฅ์ ์๋ํ๋ ๋ชจ๋ธ๋ค์ ์ดํ
์
๋ฉ์ปค๋์ฆ(attention mechanism)์ ํตํด encoder์ decoder๋ฅผ ์ฐ๊ฒฐํ๋ค.
We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.
์๋ก์ด ๋จ์ํ ๋คํธ์ํฌ ์ํคํ
์ฒ์ธ ํธ๋์คํฌ๋จธ(Transformer)๋ฅผ ์ ์ํฉ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ์ดํ
์
๋ฉ์ปค๋์ฆ(attention mechanism)์๋ง ๊ธฐ๋ฐ์ ๋๊ณ , ์ฌ๋ฐ(recurrence)๊ณผ ์ปจ๋ณผ๋ฃจ์
(convolution)์ ์ ์ ์ผ๋ก ๋ถ๋ฐฐํฉ๋๋ค.
Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train.
๋ ๊ฐ์ง ๊ธฐ๊ณ ๋ฒ์ญ ๊ณผ์ ๋ฅผ ๋์์ผ๋ก ์คํํ ๊ฒฐ๊ณผ, ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํ์ง์ด ์ฐ์ํจ๊ณผ ๋์์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ฑ์ด ๋์์ ธ ํ์ต์ ํจ์ฌ ์ ์ ์๊ฐ์ด ์์๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ด์.
Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU.
์ ํฌ ๋ชจ๋ธ์ WMT 2014 ์์ด-๋
์ผ์ด ๋ฒ์ญ ์์
์์ 28.4 BLEU๋ฅผ ๋ฌ์ฑํ์ฌ ์์๋ธ์ ํฌํจํ ๊ธฐ์กด ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ณด๋ค 2 BLEU ์ด์ ํฅ์๋์์ต๋๋ค.
On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.
WMT 2014 ์์ด-ํ๋์ค์ด ๋ฒ์ญ ์์ ์์ ์ ํฌ ๋ชจ๋ธ์ ๋ฌธํ์์ ๋์จ ์ต๊ณ ์ ๋ชจ๋ธ์ ๊ต์ก ๋น์ฉ์ ์์ ๋ถ๋ถ์ธ 8๊ฐ์ GPU์์ 3.5์ผ ๋์ ๊ต์กํ ํ 41.0์ ์๋ก์ด ๋จ์ผ ๋ชจ๋ธ ์ต์ฒจ๋จ BLEU ์ ์๋ฅผ ํ๋ฆฝํ์ต๋๋ค.
'๊ฐ์ธ ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๊ธฐ๊ด TOEFL] toefl itp ๊ณต๋ถ์๋ฃ (0) | 2025.02.19 |
---|---|
[Data Science] Random Forest ๐ณ (0) | 2024.11.11 |
[๋คํธ์ํฌ] #01. ๋คํธ์ํฌ์ ๊ธฐ์ด (0) | 2023.08.05 |
[C++] ๊ตฌ์กฐ์ฒด ๊ฐ๋ ๋ฐ ์ ์ ์ ์ธ (1) | 2023.05.07 |
[Python] random/while/list/tuple/dict (2) | 2022.09.08 |