๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๊ฐœ์ธ ๊ณต๋ถ€

[๋…ผ๋ฌธ ์ดˆ๋ก๐Ÿ’š] Attention is All you Need

by hyerong 2024. 1. 24.

abstract

 

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that 
include an encoder and a decoder.  The best performing models also connect the encoder and decoder through an attention mechanism. 
์ง€๋ฐฐ์ ์ธ ์‹œํ€€์Šค ๋ณ€ํ™˜ ๋ชจ๋ธ(dominant sequence transduction models)์€ encoder ๋ฐ decoder๋ฅผ ํฌํ•จํ•˜๋Š”
๋ณต์žกํ•œ ์ˆœํ™˜ ์‹ ๊ฒฝ๋ง ๋˜๋Š” ์ปจ๋ณผ๋ฃจ์…˜ ์‹ ๊ฒฝ๋ง์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ๋‹ค. 

์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ์ž๋ž‘ํ•˜๋Š” ๋ชจ๋ธ๋“ค์€ ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(attention mechanism)์„ ํ†ตํ•ด encoder์™€ decoder๋ฅผ ์—ฐ๊ฒฐํ•œ๋‹ค.  

 


We propose a new simple network architecture, the Transformer,
based solely on attention mechanisms, dispensing with recurrence and convolutions entirely. 
์ƒˆ๋กœ์šด ๋‹จ์ˆœํ•œ ๋„คํŠธ์›Œํฌ ์•„ํ‚คํ…์ฒ˜์ธ ํŠธ๋žœ์Šคํฌ๋จธ(Transformer)๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. 
ํŠธ๋žœ์Šคํฌ๋จธ๋Š” ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜(attention mechanism)์—๋งŒ ๊ธฐ๋ฐ˜์„ ๋‘๊ณ , ์žฌ๋ฐœ(recurrence)๊ณผ ์ปจ๋ณผ๋ฃจ์…˜(convolution)์„ ์ „์ ์œผ๋กœ ๋ถ„๋ฐฐํ•ฉ๋‹ˆ๋‹ค. 

 


Experiments on two machine translation tasks show these models to be superior in quality while being more parallelizable and requiring significantly less time to train. 
๋‘ ๊ฐ€์ง€ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ ๊ณผ์ œ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์‹คํ—˜ํ•œ ๊ฒฐ๊ณผ, ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ์€ ํ’ˆ์งˆ์ด ์šฐ์ˆ˜ํ•จ๊ณผ ๋™์‹œ์— ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ์„ฑ์ด ๋†’์•„์ ธ ํ•™์Šต์— ํ›จ์”ฌ ์ ์€ ์‹œ๊ฐ„์ด ์†Œ์š”๋˜๋Š” ๊ฒƒ์œผ๋กœ ๋‚˜ํƒ€๋‚ฌ์–ด์š”. 

 


Our model achieves 28.4 BLEU on the WMT 2014 Englishto-German translation task, improving over the existing best results, including ensembles, by over 2 BLEU.
์ €ํฌ ๋ชจ๋ธ์€ WMT 2014 ์˜์–ด-๋…์ผ์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ 28.4 BLEU๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์•™์ƒ๋ธ”์„ ํฌํ•จํ•œ ๊ธฐ์กด ์ตœ๊ณ ์˜ ๊ฒฐ๊ณผ๋ณด๋‹ค 2 BLEU ์ด์ƒ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

 


On the WMT 2014 English-to-French translation task, our model establishes a new single-model state-of-the-art BLEU score of 41.0 after training for 3.5 days on eight GPUs, a small fraction of the training costs of the best models from the literature.

WMT 2014 ์˜์–ด-ํ”„๋ž‘์Šค์–ด ๋ฒˆ์—ญ ์ž‘์—…์—์„œ ์ €ํฌ ๋ชจ๋ธ์€ ๋ฌธํ—Œ์—์„œ ๋‚˜์˜จ ์ตœ๊ณ ์˜ ๋ชจ๋ธ์˜ ๊ต์œก ๋น„์šฉ์˜ ์ž‘์€ ๋ถ€๋ถ„์ธ 8๊ฐœ์˜ GPU์—์„œ 3.5์ผ ๋™์•ˆ ๊ต์œกํ•œ ํ›„ 41.0์˜ ์ƒˆ๋กœ์šด ๋‹จ์ผ ๋ชจ๋ธ ์ตœ์ฒจ๋‹จ BLEU ์ ์ˆ˜๋ฅผ ํ™•๋ฆฝํ–ˆ์Šต๋‹ˆ๋‹ค.