์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- head()
- ๋ฐ์ดํฐ ๊ฒฐ์ธก์น
- tail()
- sqld
- ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ
- SQLD ๋ฒผ๋ฝ์น๊ธฐ
- BoostCourse
- colab
- Til
- Naive Bayes Classifier for Document Classification
- inplace=True
- ์ฑ์งํผํฐ์ ์ ๋ฌด์๋ํ
- C++
- sklearn.ensemble
- DeepSpeed
- pytorch zero to all
- ์์ด๋ฆฌํฌ
- Collection if
- Python
- ์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ
- interpolate()
- ๋ฐ์ดํฐ ์๊ฐํ
- ํ์ธํ๋ ๋ฉ๋ชจ๋ฆฌ ํด๊ฒฐ
- list
- Bag-of-Words
- ์คํ์ ๋ฐฐ์ด ํธ์ํ๊ธฐ
- llm
- ๋ ผ๋ฌธ์ด๋ก
- AI
- ๋น์ ๊ณต์ ๋น ๋ถ๊ธฐ ํฉ๊ฒฉ
- Today
- Total
hyerong's Dev_world๐ก
[boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ๊ธฐ์กด์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ ๋ณธ๋ฌธ
[boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ๊ธฐ์กด์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ
hyerong 2024. 1. 24. 19:43์ฑํฐ 1์ 2๊ฐ : ๊ธฐ์กด ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ ์๊ฐ
ํต์ฌ ๋จ์ด : BOW, ์ํซ ๋ฒกํฐ, ๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ, ๋ฌธ์ฅ ๋ถ๋ฅ
Bag-Of-Words (๋จ์ด ๊ฐ๋ฐฉ ๋ชจํ)
- ๋จ์ด ์์ ๊ณ ๋ ค X, ๊ฐ ๋จ์ด๋ค์ ์ถํ ๋น๋(frequency)์๋ง ์ง์คํ๋ ๋ฌธ์ํ ๋ฐ์ดํฐ์ ์์นํ ํํ ๋ฐฉ๋ฒ
- ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๊ธฐ ์ํด์๋ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ์ฐ์ธ ๋จ์ด๋ค์ ์ฌ์ (Vocabulary(key-value) ํํ๋ก ์ ์ฅ(์ค๋ณต ํ์ฉ X)
- ์ ์ฅ๋ ๋จ์ด๋ค์ ๊ฐ๊ฐ ์ ๋ํฌํ ์นดํ
๊ณ ๋ฆฌ ๋ณ์(Categorical variable)์ด๋ฏ๋ก, ์-ํซ ์ธ์ฝ๋ฉ(One-hot Encoding)๋ฅผ ์ด์ฉํด
๋ฒกํฐ๋ก ํํํ ์ ์๊ณ -> ๊ฒฐ๊ตญ ์ฃผ์ด์ง ๋ฌธ์ฅ์ ์-ํซ ๋ฒกํฐ์ ํฉ, ์ฆ ์ซ์๋ก ํํ(numericalํ๊ฒ) ๊ฐ๋ฅ
๋ฌธ์ฅ์ ๊ตฌ์ฑํ๊ณ ์๋ ๋จ์ด๋ค์ ๊ฐ๋ฐฉ์ ์์ฐจ์ ์ผ๋ก ์ ๋ฆฌ.
๊ฐ๋ฐฉ์ ์๋ ๊ฐ ๋จ์ด๋ค์ ๊ฐ๊ฐ ์-ํซ ๋ฒกํฐ๋ฅผ ํตํด ์ซ์๋ก ๋ณํํ๋ฉฐ, ์ฃผ์ด์ง ๋ฌธ์ฅ์ ๋ฒกํฐ์ ํฉ์ผ๋ก ํํ.
Naive Bayes Classifier for Document Classification
๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ๋ ์ธ๊ณต ์ ๊ฒฝ๋ง ์๊ณ ๋ฆฌ์ฆ์๋ ์ํ์ง ์์ง๋ง, ๋จธ์ ๋ฌ๋์ ์ฃผ์ ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ๋ถ๋ฅ.
๋์ด๋ธ ๋ฒ ์ด์ฆ ๋ถ๋ฅ๊ธฐ๋ฅผ ์ดํดํ๊ธฐ ์ํด์๋ ์ฐ์ ๋ฒ ์ด์ฆ์ ์ ๋ฆฌ(Bayes' theorem)๋ฅผ ์ดํดํด์ผํจ.
๋ฒ ์ด์ฆ ์ ๋ฆฌ๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณ์ฐํ๋ ๋ฐฉ๋ฒ.
EX.
Data | Doc(d) | Document (words, w) | Class (c) |
Training | 1 | Image recognition used convolutional neural networks | CV |
2 | Transformers can be used for image classification task | CV | |
3 | Language modeling uses transformer | NLP | |
4 | Document classification task is language task | NLP | |
Test | 5 | Classification task uses transformer | ? |
ํ์ต ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก Test data(5๋ฒ ๋ฌธ์ฅ)์ CV, NLP ๋ ํด๋์ค ์ค์ ํ ๊ณณ์ผ๋ก ๋ถ๋ฅํ๋ ค ํ๋ค.
5๋ฒ ๋ฌธ์ฅ์ ์๋ ๊ฐ ๋จ์ด๋ค์ด 1~4๋ฒ ๋ฌธ์ฅ์ ๋ช ๋ฒ ๋ฑ์ฅํ๋์ง๋ฅผ ์กฐ๊ฑด๋ถ ํ๋ฅ ๋ก ๊ณ์ฐํ๋ฉด ์ฝ๊ฒ ์ ์ ์๋ค.
๋ค๋ง ์ด ๋ฐฉ์์ ์ฝ์ ์ ๋ค๋ฅธ ๋จ์ด๋ค์ด ๋ถ๋ฅํ๊ณ ์ ํ๋ ๋ฌธ์ฅ์ ๋ง์ด ๋ฑ์ฅํ์์ง๋ผ๋, Training data ์์ 1๋ฒ์ด๋ผ๋ ๋ฑ์ฅํ์ง ์์๋ค๋ฉด
๋ชจ๋ ๋จ์ด๋ค์ ํ๋ฅ ๊ณฑ์ผ๋ก ์ธํด 0์ผ๋ก ์๋ ดํ๋ค๋ ๊ฒ์ด๋ค. (์ด์ ๊ฐ์ ํ๋ผ๋ฏธํฐ ์ถ์ ๋ฐฉ์์ ์ต๋์ฐ๋๋ฒ(MLE)์ ๊ธฐ๋ฐ์ผ๋ก ์ ๋๋๋ค.)
'๊ฐ์๋ฆฌ๋ทฐ๐ฅ๏ธ' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[boostcourse][์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ] ์์ฐ์ด ์ฒ๋ฆฌ ํ์ฉ ๋ถ์ผ์ ํธ๋ ๋ (1) | 2024.01.24 |
---|