BoostCourse2 [boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ๊ธฐ์กด์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ ์ฑํฐ 1์ 2๊ฐ : ๊ธฐ์กด ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ ์๊ฐ ํต์ฌ ๋จ์ด : BOW, ์ํซ ๋ฒกํฐ, ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ, ๋ฌธ์ฅ ๋ถ๋ฅ Bag-Of-Words (๋จ์ด ๊ฐ๋ฐฉ ๋ชจํ) ๋จ์ด ์์ ๊ณ ๋ ค X, ๊ฐ ๋จ์ด๋ค์ ์ถํ ๋น๋(frequency)์๋ง ์ง์คํ๋ ๋ฌธ์ํ ๋ฐ์ดํฐ์ ์์นํ ํํ ๋ฐฉ๋ฒ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๊ธฐ ์ํด์๋ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ์ฐ์ธ ๋จ์ด๋ค์ ์ฌ์ (Vocabulary(key-value) ํํ๋ก ์ ์ฅ(์ค๋ณต ํ์ฉ X) ์ ์ฅ๋ ๋จ์ด๋ค์ ๊ฐ๊ฐ ์ ๋ํฌํ ์นดํ ๊ณ ๋ฆฌ ๋ณ์(Categorical variable)์ด๋ฏ๋ก, ์-ํซ ์ธ์ฝ๋ฉ(One-hot Encoding)๋ฅผ ์ด์ฉํด ๋ฒกํฐ๋ก ํํํ ์ ์๊ณ -> ๊ฒฐ๊ตญ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ์-ํซ ๋ฒกํฐ์ ํฉ, ์ฆ ์ซ์๋ก ํํ(numericalํ๊ฒ) ๊ฐ๋ฅ ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๊ณ ์๋ ๋จ์ด๋ค์ ๊ฐ๋ฐฉ์ ์์ฐจ์ ์ผ๋ก.. 2024. 1. 24. [boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋ boostcourse๋ฅผ ํตํด KAIST ์ฃผ์ฌ๊ฑธ ๊ต์๋์ "์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ" ๊ฐ์๋ฅผ ๋ฃ๊ฒ ๋์๋ค. ์์ฆ ์ฐ๊ตฌ์ค์์ ๊ณต๋ถํ๊ฒ ๋ ๋ถ์ผ๊ฐ ์ธ์ด๋ชจ๋ธ์ธ๋ฐ, ์ธ์ด๋ชจ๋ธ์ ๋ค์ด๊ฐ๊ธฐ์ ์์์ ๋ฅ๋ฌ๋๊ณผ ์์ฐ์ด ์ฒ๋ฆฌ ๊ณต๋ถ๋ฅผ ์์ํด์ผํด์ ๋ฌด๋ฃ ๊ฐ์๋ฅผ ์์นํ๋ค๊ฐ ์๊ฒ ๋์๋ค. ์ฒซ๋ฒ์งธ ๊ฐ์๋ "์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋"์๋๋ฐ, ์์ฐ์ด ์ฒ๋ฆฌ๊ฐ ๋ฌด์์ธ์ง๋ฟ ์๋๋ผ ๊ธฐ์ ์ด ํ์ฉ๋๋ ๋ถ์ผ์ ๊ด๋ จ ํํ๊น์ง ์์๋ณด๋ ์์ผ๋ก์ด ํ์ต์ ํฐ ๋๊ธฐ๋ถ์ฌ๊ฐ ๋์๋ค. ํนํ ํ ์คํธ ๋ง์ด๋ ๊ธฐ์ ์์ computational social science(๋น ๋ฐ์ดํฐ ๋ถ์ ๊ธฐ๋ฐ ์ฌํ๊ณผํ)๊ฐ ๋์ ์ ๋ง ์ ๋ง์ ๊ฒ ๊ฐ๋ค๋ ์๊ฐ์ด ๋ค์ด ์์ผ๋ก์ ๊ณต๋ถํ ๋ถ์ผ์ ๋ํ ๊ธฐ๋๊ฐ ํฌ๋ค. ๊ฐ์ ํผํผํฐ๋ ๊ตฌํ ์ ์์ง๋ง, ์์ฝ๋ ๋ด์ฉ์ด ํจ๊ป ๊ณต์ ๋์ด ๋ณต์ตํ ๋ ์ฐธ๊ณ ํด.. 2024. 1. 24. ์ด์ 1 ๋ค์