The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that
include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism.
์ง๋ฐฐ์ ์ธ ์ํ์ค ๋ณํ ๋ชจ๋ธ(dominant sequence transduction models)์ encoder ๋ฐ decoder๋ฅผ ํฌํจํ๋
๋ณต์กํ ์ํ ์ ๊ฒฝ๋ง ๋๋ ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ค.
์ต๊ณ ์ ์ฑ๋ฅ์ ์๋ํ๋ ๋ชจ๋ธ๋ค์ ์ดํ
์
๋ฉ์ปค๋์ฆ(attention mechanism)์ ํตํด encoder์ decoder๋ฅผ ์ฐ๊ฒฐํ๋ค.
We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions entirely.
์๋ก์ด ๋จ์ํ ๋คํธ์ํฌ ์ํคํ
์ฒ์ธ ํธ๋์คํฌ๋จธ(Transformer)๋ฅผ ์ ์ํฉ๋๋ค.
ํธ๋์คํฌ๋จธ๋ ์ดํ
์
๋ฉ์ปค๋์ฆ(attention mechanism)์๋ง ๊ธฐ๋ฐ์ ๋๊ณ , ์ฌ๋ฐ(recurrence)๊ณผ ์ปจ๋ณผ๋ฃจ์
(convolution)์ ์ ์ ์ผ๋ก ๋ถ๋ฐฐํฉ๋๋ค.
Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train.
๋ ๊ฐ์ง ๊ธฐ๊ณ ๋ฒ์ญ ๊ณผ์ ๋ฅผ ๋์์ผ๋ก ์คํํ ๊ฒฐ๊ณผ, ํธ๋์คํฌ๋จธ ๋ชจ๋ธ์ ํ์ง์ด ์ฐ์ํจ๊ณผ ๋์์ ๋ณ๋ ฌ ์ฒ๋ฆฌ์ฑ์ด ๋์์ ธ ํ์ต์ ํจ์ฌ ์ ์ ์๊ฐ์ด ์์๋๋ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ด์.
Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU.
์ ํฌ ๋ชจ๋ธ์ WMT 2014 ์์ด-๋
์ผ์ด ๋ฒ์ญ ์์
์์ 28.4 BLEU๋ฅผ ๋ฌ์ฑํ์ฌ ์์๋ธ์ ํฌํจํ ๊ธฐ์กด ์ต๊ณ ์ ๊ฒฐ๊ณผ๋ณด๋ค 2 BLEU ์ด์ ํฅ์๋์์ต๋๋ค.
On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.
WMT 2014 ์์ด-ํ๋์ค์ด ๋ฒ์ญ ์์ ์์ ์ ํฌ ๋ชจ๋ธ์ ๋ฌธํ์์ ๋์จ ์ต๊ณ ์ ๋ชจ๋ธ์ ๊ต์ก ๋น์ฉ์ ์์ ๋ถ๋ถ์ธ 8๊ฐ์ GPU์์ 3.5์ผ ๋์ ๊ต์กํ ํ 41.0์ ์๋ก์ด ๋จ์ผ ๋ชจ๋ธ ์ต์ฒจ๋จ BLEU ์ ์๋ฅผ ํ๋ฆฝํ์ต๋๋ค.
'๊ฐ์ธ ๊ณต๋ถ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[๋คํธ์ํฌ] #01. ๋คํธ์ํฌ์ ๊ธฐ์ด (0) | 2023.08.05 |
---|---|
[C++] ๊ตฌ์กฐ์ฒด ๊ฐ๋ ๋ฐ ์ ์ ์ ์ธ (1) | 2023.05.07 |
[Python] random/while/list/tuple/dict (2) | 2022.09.08 |
[Python] format (2) | 2022.08.28 |
AI์ค์ต ๊ณผ์ ๊ธฐ๋ก: data set, unique value, tree by python (0) | 2022.08.26 |