๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

BoostCourse2

[boostcourse][์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์˜ ๋ชจ๋“ ๊ฒƒ] ๊ธฐ์กด์˜ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ• ์ฑ•ํ„ฐ 1์˜ 2๊ฐ• : ๊ธฐ์กด ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ธฐ๋ฒ• ์†Œ๊ฐœ ํ•ต์‹ฌ ๋‹จ์–ด : BOW, ์›ํ•ซ ๋ฒกํ„ฐ, ๋‚˜์ด๋ธŒ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜๊ธฐ, ๋ฌธ์žฅ ๋ถ„๋ฅ˜ Bag-Of-Words (๋‹จ์–ด ๊ฐ€๋ฐฉ ๋ชจํ˜•) ๋‹จ์–ด ์ˆœ์„œ ๊ณ ๋ ค X, ๊ฐ ๋‹จ์–ด๋“ค์˜ ์ถœํ˜„ ๋นˆ๋„(frequency)์—๋งŒ ์ง‘์ค‘ํ•˜๋Š” ๋ฌธ์žํ˜• ๋ฐ์ดํ„ฐ์˜ ์ˆ˜์น˜ํ™” ํ‘œํ˜„ ๋ฐฉ๋ฒ• ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ฃผ์–ด์ง„ ๋ฌธ์žฅ์— ์“ฐ์ธ ๋‹จ์–ด๋“ค์„ ์‚ฌ์ „(Vocabulary(key-value) ํ˜•ํƒœ๋กœ ์ €์žฅ(์ค‘๋ณต ํ—ˆ์šฉ X) ์ €์žฅ๋œ ๋‹จ์–ด๋“ค์€ ๊ฐ๊ฐ ์œ ๋‹ˆํฌํ•œ ์นดํ…Œ๊ณ ๋ฆฌ ๋ณ€์ˆ˜(Categorical variable)์ด๋ฏ€๋กœ, ์›-ํ•ซ ์ธ์ฝ”๋”ฉ(One-hot Encoding)๋ฅผ ์ด์šฉํ•ด ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ณ  -> ๊ฒฐ๊ตญ ์ฃผ์–ด์ง„ ๋ฌธ์žฅ์„ ์›-ํ•ซ ๋ฒกํ„ฐ์˜ ํ•ฉ, ์ฆ‰ ์ˆซ์ž๋กœ ํ‘œํ˜„(numericalํ•˜๊ฒŒ) ๊ฐ€๋Šฅ ๋ฌธ์žฅ์„ ๊ตฌ์„ฑํ•˜๊ณ  ์žˆ๋Š” ๋‹จ์–ด๋“ค์„ ๊ฐ€๋ฐฉ์— ์ˆœ์ฐจ์ ์œผ๋กœ.. 2024. 1. 24.
[boostcourse][์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์˜ ๋ชจ๋“ ๊ฒƒ] ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ™œ์šฉ ๋ถ„์•ผ์™€ ํŠธ๋ Œ๋“œ boostcourse๋ฅผ ํ†ตํ•ด KAIST ์ฃผ์žฌ๊ฑธ ๊ต์ˆ˜๋‹˜์˜ "์ž์—ฐ์–ด ์ฒ˜๋ฆฌ์˜ ๋ชจ๋“  ๊ฒƒ" ๊ฐ•์˜๋ฅผ ๋“ฃ๊ฒŒ ๋˜์—ˆ๋‹ค. ์š”์ฆ˜ ์—ฐ๊ตฌ์‹ค์—์„œ ๊ณต๋ถ€ํ•˜๊ฒŒ ๋œ ๋ถ„์•ผ๊ฐ€ ์–ธ์–ด๋ชจ๋ธ์ธ๋ฐ, ์–ธ์–ด๋ชจ๋ธ์— ๋“ค์–ด๊ฐ€๊ธฐ์— ์•ž์„œ์„œ ๋”ฅ๋Ÿฌ๋‹๊ณผ ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ณต๋ถ€๋ฅผ ์‹œ์ž‘ํ•ด์•ผํ•ด์„œ ๋ฌด๋ฃŒ ๊ฐ•์˜๋ฅผ ์„œ์น˜ํ•˜๋‹ค๊ฐ€ ์•Œ๊ฒŒ ๋˜์—ˆ๋‹ค. ์ฒซ๋ฒˆ์งธ ๊ฐ•์˜๋Š” "์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ํ™œ์šฉ ๋ถ„์•ผ์™€ ํŠธ๋ Œ๋“œ"์˜€๋Š”๋ฐ, ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ๊ฐ€ ๋ฌด์—‡์ธ์ง€๋ฟ ์•„๋‹ˆ๋ผ ๊ธฐ์ˆ ์ด ํ™œ์šฉ๋˜๋Š” ๋ถ„์•ผ์™€ ๊ด€๋ จ ํ•™ํšŒ๊นŒ์ง€ ์•Œ์•„๋ณด๋‹ˆ ์•ž์œผ๋กœ์ด ํ•™์Šต์— ํฐ ๋™๊ธฐ๋ถ€์—ฌ๊ฐ€ ๋˜์—ˆ๋‹ค. ํŠนํžˆ ํ…์ŠคํŠธ ๋งˆ์ด๋‹ ๊ธฐ์ˆ ์—์„œ computational social science(๋น…๋ฐ์ดํ„ฐ ๋ถ„์„ ๊ธฐ๋ฐ˜ ์‚ฌํšŒ๊ณผํ•™)๊ฐ€ ๋‚˜์™€ ์ •๋ง ์ž˜ ๋งž์„ ๊ฒƒ ๊ฐ™๋‹ค๋Š” ์ƒ๊ฐ์ด ๋“ค์–ด ์•ž์œผ๋กœ์˜ ๊ณต๋ถ€ํ•  ๋ถ„์•ผ์— ๋Œ€ํ•œ ๊ธฐ๋Œ€๊ฐ€ ํฌ๋‹ค. ๊ฐ•์˜ ํ”ผํ”ผํ‹ฐ๋Š” ๊ตฌํ•  ์ˆ˜ ์—†์ง€๋งŒ, ์š”์•ฝ๋œ ๋‚ด์šฉ์ด ํ•จ๊ป˜ ๊ณต์œ ๋˜์–ด ๋ณต์Šตํ•  ๋•Œ ์ฐธ๊ณ ํ•ด.. 2024. 1. 24.