๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
๋„์„œ๋ฆฌ๋ทฐ

[ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ_์ด๊ธฐ์ฐฝ] (1)

by hyerong 2024. 1. 25.

 

๊ฐ ์ฑ•ํ„ฐ๋ณ„ ๋‚ด์šฉ ํ•œ๋ˆˆ์— ์‚ดํŽด๋ณด๊ธฐ 

1์žฅ ์„œ๋ก  

- ์ž„๋ฒ ๋”ฉ์˜ ์ •์˜, ์—ญ์‚ฌ์™€ ์ข…๋ฅ˜๋“ฑ์„ ์‚ดํ”ผ๋ฉฐ ๋„์ปค์™€ ๊ฐ™์€ ๊ฐœ๋ฐœํ™˜๊ฒฝ์„ ๊ตฌ์„ฑํ•˜๋Š” ๊ณผ์ • ์„ค๋ช… 

 

2์žฅ ๋ฒกํ„ฐ๊ฐ€ ์–ด๋–ป๊ฒŒ ์˜๋ฏธ๋ฅผ ๊ฐ€์ง€๊ฒŒ ๋˜๋Š”๊ฐ€

- ์ž์—ฐ์–ด์˜ ์˜๋ฏธ๋ฅผ ์ž„๋ฒ ๋”ฉ์— ์–ด๋–ป๊ฒŒ ํ•จ์ถ•์‹œํ‚ฌ์ˆ˜์žˆ๋Š”์ง€, 

- ๊ฐ ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฒ•๋“ค์€ ํฌ๊ณ  ์ž‘์€ ์ฐจ์ด๊ฐ€ ์žˆ์ง€๋งŒ ๋ง๋ญ‰์น˜;corpus์˜ ํ†ต๊ณ„์  ํŒจํ„ด ์ •๋ณด;statistical pattern๋ฅผ ๋ฐ˜์˜ํ•œ๋‹ค๋Š” ์ ์—์„œ ๊ณตํ†ต์ ์ด๋‹ค. 

 

3์žฅ ํ•œ๊ตญ์–ด ์ „์ฒ˜๋ฆฌ 

- ์ž„๋ฒ ๋”ฉ ํ•™์Šต์„ ์œ„ํ•œ ํ•œ๊ตญ์–ด ๋ฐ์ดํ„ฐ์˜ ์ „์ฒ˜๋ฆฌ ๊ณผ์ • 

- ์›น ๋ฌธ์„œ/json ํŒŒ์ผ ๊ฐ™์€ ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆœ์ˆ˜ ํ…์ŠคํŠธ ํŒŒ์ผ๋กœ ๋ฐ”๊พธ๋ฉฐ ์—ฌ๊ธฐ์— ํ˜•ํƒœ์†Œ ๋ถ„์„+๋„์–ด์“ฐ๊ธฐ ๊ต์ •์„ ์‹ค์‹œํ•˜๋Š” ๋ฐฉ๋ฒ• ์„ค๋ช…

 

4์žฅ ๋‹จ์–ด ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ 

- ๋‹ค์–‘ํ•œ ๋‹จ์–ด ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์„ ์„ค๋ช… 

- NPLM, Word2Vec, FastText ๋“ฑ์€ ์˜ˆ์ธก๊ธฐ๋ฐ˜ ๋ชจ๋ธ, 

- LSA, GloVe, Swivel ๋“ฑ์€ ํ–‰๋ ฌ๋ถ„ํ•ด;matrix factorization 

- ๊ฐ€์ค‘ ์ž„๋ฒ ๋”ฉ;weighted embedding์€ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ๋ฌธ์žฅ ์ˆ˜์ค€์œผ๋กœ ํ™•์žฅํ•˜๋Š” ๋ฐฉ๋ฒ• 

 

5์žฅ ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ 

- ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ์„ ๋‹ค๋ฃจ๋ฉฐ, ํ–‰๋ ฌ๋ถ„ํ•ด, ํ™•๋ฅ  ๋ชจ๋ธ, ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ ๊ธฐ๋ฐ˜ ๋ชจ๋ธ ๋“ฑ ์„ธ ์ข…๋ฅ˜๋ฅผ ์†Œ๊ฐœ 

- ์ž ์žฌ ์˜๋ฏธ ๋ถ„์„;LSA์€ ํ–‰๋ ฌ๋ถ„ํ•ด, ์ž ์žฌ ๋””๋ฆฌํ‚ฌ๋ ˆ ํ• ๋‹น LDA๋Š” ํ™•๋ฅ  ๋ชจ๋ธ, 

- Doc2Vec, ELMo, GPT, BERT๋“ฑ์€ ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ๊ฐ€ ์ค‘์‹ฌ์ธ ๋ฐฉ๋ฒ• -> ํŠนํžˆ GPT, BERT๋Š” ์…€ํ”„ ์–ดํ…์…˜self-attention๊ธฐ๋ฐ˜์˜ ํŠธ๋ Œ์Šคํฌ๋จธ ๋„คํŠธ์›Œํฌ;transformer network ๊ฐ€ ๊ทธ ๋ผˆ๋Œ€๋ฅผ ์ด๋ฃจ๊ณ  ์žˆ๋‹ค. 

 

6์žฅ ์ž„๋ฒ ๋”ฉ ํŒŒ์ธ ํŠœ๋‹ 

- ๋‹จ์–ด, ๋ฌธ์žฅ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ์„ ํŒŒ์ธ ํŠœ๋‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ๋‹ค๋ฃธ

- ๋„ค์ด๋ฒ„ ์˜ํ•˜ ๋ฆฌ๋ทฐ ๋ง๋ญ‰์น˜๋กœ ๊ทน์„ฑ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ณผ์ œ ์ˆ˜ํ–‰ 

 

๋ถ€๋ก 

- ์ด ์ฑ…์„ ์ดํ•ดํ•˜๋Š”๋ฐ ํ•„์š”ํ•œ ์ƒ์‹ ์†Œ๊ฐœ 

- ์„ ํ˜•๋Œ€์ˆ˜ํ•™, ํ™•๋ฅ ๋ก , ๋‰ด๋Ÿด ๋„คํŠธ์›Œํฌ, ๊ตญ์–ดํ•™ ๋“ฑ์˜ ๋‚ด์šฉ ๊ฐ„๋žตํžˆ ์†Œ๊ฐœ