๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ
์นดํ…Œ๊ณ ๋ฆฌ ์—†์Œ

[ํ•œ๊ตญ์–ด ์ž„๋ฒ ๋”ฉ_์ด๊ธฐ์ฐฝ] 1์žฅ ์„œ๋ก  (2)

by hyerong 2024. 1. 25.

1์žฅ์„ ์ฝ์œผ๋ฉฐ ํŠน๋ณ„ํžˆ ๊ธฐ์–ตํ•ด์•ผ๊ฒ ๋‹ค๋Š” ๋‚ด์šฉ ์ค‘ ์ผ๋ถ€๋งŒ ์ •๋ฆฌํ•ด๋ณด์•˜๋‹ค. 

1์žฅ์—์„œ๋Š” ์ž„๋ฒ ๋”ฉ์˜ ๊ฐœ๋…๊ณผ ์ข…๋ฅ˜, ์—ญ์‚ฌ์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด์•˜๋‹ค. 

 


๊ธฐ๊ณ„์˜ ์ž์—ฐ์–ด ์ดํ•ด์™€ ์ƒ์„ฑ์€ ์—ฐ์‚ฐ์ด๋‚˜ ์ฒ˜๋ฆฌ์˜ ์˜์—ญ์ด๋‹ค. 

์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ์—์„œ ์ž„๋ฒ ๋”ฉ์ด๋ž€ ์‚ฌ๋žŒ์ด ์“ฐ๋Š” ์ž์—ฐ์–ด๋ฅผ ๊ธฐ๊ณ„๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž์˜ ๋‚˜์—ด์ธ ๋ฒกํ„ฐ๋กœ ๋ฐ”๊พผ ๊ฒฐ๊ณผ ํ˜น์€ ๊ทธ ์ผ๋ จ์˜ ๊ณผ์ • ์ „์ฒด๋ฅผ ์˜๋ฏธํ•œ๋‹ค. ๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ ๊ฐ๊ฐ์„ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด ๋ฒกํ„ฐ ๊ณต๊ฐ„์œผ๋กœ ๋ผ์›Œ ๋„ฃ๋Š”๋‹ค ๋ผ๋Š” ์˜๋ฏธ์—์„œ ์ž„๋ฒ ๋”ฉ์ด๋ผ๋Š” ์ด๋ฆ„์ด ๋ถ™์—ˆ๋‹ค. 

 

์ž„๋ฒ ๋”ฉ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์—ญํ• ์„ ์ˆ˜ํ–‰ํ•œ๋‹ค๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ๋‹ค. 

1, ๋‹จ์–ด/๋ฌธ์žฅ ๊ฐ„์˜ ๊ด€๋ จ๋„ ๊ณ„์‚ฐ 

2. ์˜๋ฏธ์ /๋ฌธ๋ฒ•์  ์ •๋ณด ํ•จ์ถ• 

3. ์ „์ด ํ•™์Šต 

 

์ž„๋ฒ ๋”ฉ์€ ๋ฒกํ„ฐ์ธ ๋งŒํผ ์‚ฌ์น™์—ฐ์‚ฐ์ด ๊ฐ€๋Šฅํ•˜๋‹ค. ๋‹จ์–ด ๋ฒกํ„ฐ ๊ฐ„ ๋ง์…ˆ/๋บ„์…ˆ์„ ํ†ตํ•ด ๋‹จ์–ด๋“ค ์‚ฌ์ด์˜ ์˜๋ฏธ์ , ๋ฌธ๋ฒ•์  ๊ด€๊ณ„๋ฅผ ๋„์ถœํ•ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค. 

 

๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ์ž…๋ ฅ๊ณผ ์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์ž˜ ๊ทผ์‚ฌ;approximationํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ๋žŒ์ด ๋ชจ๋ธ์— ๊ทœ์น™์„ ๊ตณ์ด ์ง์ ‘ ์•Œ๋ ค์ฃผ์ง€ ์•Š์•„๋„ ๋œ๋‹ค. 

๋ฐ์ดํ„ฐ๋ฅผ ํ†ต์งธ๋กœ ๋ชจ๋ธ์— ๋„ฃ๊ณ  ์ž…์ถœ๋ ฅ ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ์‚ฌ๋žŒ์˜ ๊ฐœ์ž… ์—†์ด ๋ชจ๋ธ ์Šค์Šค๋กœ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋๊นŒ์ง€ ์ดํ•ดํ•˜๋„๋ก ์œ ๋„ํ•œ๋‹ค. 

์ด๋Ÿฐ ๊ธฐ๋ฒ•์„ end-to-end model์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค. ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์— ๋„๋ฆฌ ์“ฐ์˜€๋˜ sequence-to-sequence ๋ชจ๋ธ์ด ์—”๋“œํˆฌ์—”๋“œ์˜ ๋Œ€ํ‘œ ์‚ฌ๋ก€๋‹ค. 

 

๋ฌธ์žฅ์„ ์ด์ฒ˜๋Ÿผ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ถ„์„ํ•˜๋Š” ๊ณผ์ •์„ tokenize;ํ† ํฌ๋‚˜์ด์ฆˆ ๋ผ๊ณ  ํ•œ๋‹ค. 

์˜คํ”ˆ์†Œ์Šค ํ˜•ํƒœ์†Œ ๋ถ„์„๊ธฐ : ์€์ „ํ•œ๋‹ขMecab,๊ผฌ๊ผฌ๋งˆKkma