์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Bag-of-Words
- tail()
- head()
- pytorch zero to all
- ์์ด๋ฆฌํฌ
- C++
- Naive Bayes Classifier for Document Classification
- ๋น์ ๊ณต์ ๋น ๋ถ๊ธฐ ํฉ๊ฒฉ
- Python
- ์์ฐ์ด ์ฒ๋ฆฌ์ ๋ชจ๋ ๊ฒ
- BoostCourse
- inplace=True
- ์ฑ์งํผํฐ์ ์ ๋ฌด์๋ํ
- ์คํ์ ๋ฐฐ์ด ํธ์ํ๊ธฐ
- sqld
- interpolate()
- colab
- SQLD ๋ฒผ๋ฝ์น๊ธฐ
- ๋ฐ์ดํฐ ์๊ฐํ
- Til
- sklearn.ensemble
- ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ๋ฒ
- llm
- ๋ ผ๋ฌธ์ด๋ก
- DeepSpeed
- list
- ๋ฐ์ดํฐ ๊ฒฐ์ธก์น
- AI
- ํ์ธํ๋ ๋ฉ๋ชจ๋ฆฌ ํด๊ฒฐ
- Collection if
- Today
- Total
๋ชฉ๋กAI (5)
hyerong's Dev_world๐ก
์๊ธ : https://arstechnica.com/ai/2024/11/what-if-ai-doesnt-just-keep-getting-better-forever/ What if AI doesn’t just keep getting better forever?New reports highlight fears of diminishing returns for traditional LLM training.arstechnica.com ์ธ๊ณต์ง๋ฅ์ ๋ฐ์ ์ ์ด๋๊น์ง์ผ๊น? ๋ณธ ์ํฐํด์์๋ AI์ ๋ฐ์ ์ด ํ๊ณ์ ๋ถ๋ชํ๊ณ ์๋ค๋ ๋ง์ ์ ํ๋ค. OpenAI์ ์ฐจ๊ธฐ ๋ชจ๋ธ์ด ์ด์ ๋ชจ๋ธ์ ๋นํด ์ฑ๋ฅํฅ์์ด ํฌ์ง ์๋ค๋ ๋ด๋ถ ๋ณด๊ณ ๊ฐ ๋ฑ์ฅํ๋ฉด์ AI ๊ธฐ์ ์ด ์ด๋ฏธ ํ๋ํ ์ ๋๋ฌํ๋ค๋ ๊ฒ์ด๋ค. 1. ์๋ก ๐ AI์ ๋ฐ์ ํ๊ณ ๊ฐ๋ฅ์ฑAI..

๋ฅ์คํผ๋(DeepSpeed)๋ ๋ง์ดํฌ๋ก์ํํธ์์ ๋ฐํํ ๋ฅ๋ฌ๋์ ์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ค. ์คํผ์ ๊ฐ๋ฐ ๊นํ๋ธ์์๋ ํ๋ฒ์ ํด๋ฆญ์ผ๋ก ์ฑ์งํผํฐ์ ์ ์ฌํ ๋ชจ๋ธ ๊ต์ก์ ์ง์ํด ๋ชจ๋ ๊ท๋ชจ์์ ํฐ ๋น์ฉ ์ ๊ฐ์ผ๋ก SOTA RLHF ์์คํ ๋ณด๋ค 15๋ฐฐ ๋น ๋ฅธ ์๋๋ฅผ ์ ๊ณตํ๋ค๊ณ ๋งํ๋ค. gpu ๋ฉ๋ชจ๋ฆฌ์ ์ฐ์ฐ ์์์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ฉด์ ํฐ ์ธ์ด๋ชจ๋ธ ํ๋ จ๊ณผ ๋ฐฐํฌ์ ์ฉ์ดํ๋ค! DeepSpeed๋ ๋ชจ๋ธ ๋ณ๋ ฌํ, ํผํฉ ์ ๋ฐ๋ ํ๋ จ, ZeRO(Zero Redundancy Optimizer) ๊ธฐ์ ์ ์ ๊ณตํ์ฌ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ํ๋ จ ์๋๋ฅผ ๋์ธ๋ค๊ณ ํ๋ค. ์๋๋ฅผ ๋์ด๋ ๋ฐฉ๋ฒ ํ๋ํ๋์ ๋ํด ์ข ๋ ์์ธํ ์์๋ณด์. ZeRO ์ต์ ํ:๋ชจ๋ธ ํ๋ผ๋ฏธํฐ, ์ตํฐ๋ง์ด์ ์ํ, ๊ทธ๋๋์ธํธ๋ฅผ ๋ถ์ฐํ์ฌ GPU ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ์ ์ต์ํํ๊ณ ํฐ ๋ชจ๋ธ์ ํ๋ จํ ..

์ด๋ฒ ๊ธ์์ ์ค๋ช ํ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค. 1. ๋๋คํฌ๋ ์คํธ ๊ฐ๋ 2. ๋๋คํฌ๋ ์คํธ ์ ์ธ 3. RFR ๋ชจ๋ธ ์ฌ์ฉ ์ฝ๋ - x,y๋ณ์ ์ค์ ์ฝ๋ 4. ๋ณด๋์ค) ํ๊ฐ ์ฒ๋ mse ๋? - ๋จธ์ ๋ฌ๋ ํ๊ท๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ ์ฒซ๋ฒ์ฌ๋ก ๋๋ค ํฌ๋ ์คํธ๋ map ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ ํ์ฑ, ๋จ์์ฑ ๋ฐ ์ ์ฐ์ฑ์ผ๋ก ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ฉฐ, ๋ถ๋ฅ ๋ฐ ํ๊ท ์์ ์ ์ฌ์ฉํ ์ ์๋ค. ์ฌ๋ฌ ๊ฐ์ ์์ฌ๊ฒฐ์ ๋๋ฌด(Decision Tree)๋ฅผ ๋ง๋ค์ด์ ์ด ๊ฒฐ์ ํธ๋ฆฌ๋ค์ ํ๊ท ์ผ๋ก ์์ธก์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ์ด๊ณ ์ด๋ฌํ ๊ธฐ๋ฒ์ ์์๋ธ(Ensemble) ๊ธฐ๋ฒ์ด๋ผ ํ๋ค. (์ฃผ์ด์ง ํ๋์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ์ ๋๋ค ๋ฐ์ดํฐ set์ ์ถ์ถํด ๊ฐ ๋ฐ์ดํฐset์ ํตํด ์ฌ๋ฌ ๊ฐ ๋ง๋ค ์ ์์ด์ ๋ง์ ์์ ํ๋ณธ์ง๋ต์ด ์๊ธฐ๋ ์์ธก ์ฑ..

ํ์ด์ฌ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์์ ๋ฐ์ดํฐ ๊ฒฐ์ธก์น(missing data)๋ฅผ ๋ง๋ฌ์๋ ํด๊ฒฐ๋ฐฉ๋ฒ 2๊ฐ์ง๋ฅผ ์๊ฐํ๋ค. ์ฒซ๋ฒ์งธ๋ ๊ฒฐ์ธก์น์ ๋ํด ๋ฐ์ดํฐ์ ํ๊ท ๊ฐ์ผ๋ก ๋ฉ๊พธ๋ ๋ฐฉ๋ฒ ๋๋ฒ์ฌ๋ ๋ณด๊ฐ๋ฒ์ ์ฌ์ฉํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๋จผ์ ๊ฒฐ์ธก์น์ ๊ฐ๋ ์ ๋ค์ ์ง์ด๋ณด์๋ฉด missing data ์ฆ, ์์ด๋ฒ๋ฆฐ ๋ฐ์ดํฐ, ๋ฐ์ดํฐ๊ฐ ๋ด๊ธด ํ์์, ํ์ ๋ํด ๋ฐ์ดํฐ ๊ฐ์ ๋ฃ๋ ์ด์ด ๋น์ด์๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์๋ฅผ ๋ค์ด, ํ์๋ค์ ํ๋ฒ์ด๋ผ๋ ํ์์ ํน์ ํ์์ ํ๋ฒ ์นธ์ด ๋น์ด์ ธ ์๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค. ์ด๋ฆ ํ๋ฒ ํ๊ธธ๋ 21900123 ์ฌ์ฒญ์ด (missing data) ๋ก๋นํ 21500321 ์ ํ์์๋ ์ฌ์ฒญ์ด์ ํ๋ฒ์์ ๋ฐ์ดํฐ missing์ด ๋ฐ์ํ๋ค. ์ด๋ฐ ๋น ๋ฐ์ดํฐ๊ฐ ์์๊ฐ๋ด ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์น๋ ๊ฒ์ด๋ค. ํ๋ก๊ทธ๋๋จธ๋ ์ด๋ฐ..

ํ์ด์ฌ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์ฌ๋ ์ฃผ๋ก colab์ ์ฌ์ฉํ๋ ํธ์ด๋ค. ์น์ด๋ผ ์ ๊ทผ์ฑ๋ ํธํ๊ณ ๋๊ณ ํค๊ธฐ ํธํ๊ณ ๊ฐ๋ฒผ์ด ๋๋. 1. read_csv ์์ ์ด๋ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ฌ๋ read_csv๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ธ์จ๋ค ๋จผ์ import๋ก ํ๋ค๋ ์ธ์ฌํ๋ฉด ๋ฐ์ดํฐ ๋ฐ์ ๊ฐ์ฒด์ read_csv('ํ์ผ ์ด๋ฆ.ํ์ฅ์')๋ฅผ ๋์ ํด์ฃผ๋ฉด๋๋ค. 2. ๋ฐ์ดํฐ ๊ฒฐ์ธก์น ํ์ธ ๋ฐ์ดํฐ๋ฅผ ๋ฐ์ผ๋ฉด ๋ฐ์ดํฐ ๊ฒฐ์ธก์น๋ฅผ ํ์ธํด์ผํ๋ค๋ ๋ง์ด ์๋ค. ๋ฐ์ดํฐ๊ฐ ๋น๊ฒ ์๋์ง ์๋์ง ์์๋ณด๋ ๊ฒ์ด๋ค. ๊ณ๋ ํํ ์ฌ๊ธฐ์ 30๊ฐ๊ฐ ๋ค ์๋์ง ํ์ธํ๋ ๋๋์ด๋๊น? ์์ด๋ก Missing Value๋ผ๊ณ ํ๋ค. ์ค์ฌ์ NA๋ผ๊ณ ๋ ํ๋๋ฐ null์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ฝ๋ค. ํ๋ค๋ NaN์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ฉ์๋๋ ์ฝ๊ฒ ๊ธฐ์ตํ ์ ์๋ค. isnull()์ด๋ค. ๋ฌธ์ ๊ทธ๋๋ก is ..