์ด๋ฒ ๊ธ์์ ์ค๋ช ํ ๋ด์ฉ์ ๋ค์๊ณผ ๊ฐ๋ค.
1. ๋๋คํฌ๋ ์คํธ ๊ฐ๋
2. ๋๋คํฌ๋ ์คํธ ์ ์ธ
3. RFR ๋ชจ๋ธ ์ฌ์ฉ ์ฝ๋ - x,y๋ณ์ ์ค์ ์ฝ๋
4. ๋ณด๋์ค) ํ๊ฐ ์ฒ๋ mse ๋? - ๋จธ์ ๋ฌ๋ ํ๊ท๋ชจ๋ธ ์ฑ๋ฅ ํ๊ฐ ์งํ
์ฒซ๋ฒ์ฌ๋ก ๋๋ค ํฌ๋ ์คํธ๋ map ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ์ ํ์ฑ, ๋จ์์ฑ ๋ฐ ์ ์ฐ์ฑ์ผ๋ก ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์๊ณ ๋ฆฌ์ฆ ์ค ํ๋์ด๋ฉฐ, ๋ถ๋ฅ ๋ฐ ํ๊ท ์์ ์ ์ฌ์ฉํ ์ ์๋ค.
์ฌ๋ฌ ๊ฐ์ ์์ฌ๊ฒฐ์ ๋๋ฌด(Decision Tree)๋ฅผ ๋ง๋ค์ด์ ์ด ๊ฒฐ์ ํธ๋ฆฌ๋ค์ ํ๊ท ์ผ๋ก ์์ธก์ ์ฑ๋ฅ์ ๋์ด๋ ๋ฐฉ๋ฒ์ด๊ณ ์ด๋ฌํ ๊ธฐ๋ฒ์ ์์๋ธ(Ensemble) ๊ธฐ๋ฒ์ด๋ผ ํ๋ค. (์ฃผ์ด์ง ํ๋์ ๋ฐ์ดํฐ๋ก๋ถํฐ ์ฌ๋ฌ ๊ฐ์ ๋๋ค ๋ฐ์ดํฐ set์ ์ถ์ถํด ๊ฐ ๋ฐ์ดํฐset์ ํตํด ์ฌ๋ฌ ๊ฐ ๋ง๋ค ์ ์์ด์ ๋ง์ ์์ ํ๋ณธ์ง๋ต์ด ์๊ธฐ๋ ์์ธก ์ฑ๋ฅ์ ๋์ผ ์ ์๋ค.)
-์ถ์ฒ : DACON ํ์ด์ฌ ํํ ๋ฆฌ์ผ
๋๋ฒ์งธ๋ก ๋ชจ๋ธ ์ ์ธ ์ฝ๋๋ ์๋์ ๊ฐ๋ค.
from sklearn.ensemble import RandomForestRegressor
model = RandomForestRegressor()
๋จผ์ sklearn.ensemble๋ถํฐ ํด๋น RFR๋ชจ๋ธ์ importํด์ผ ํ๋ค.
๊ทธ ํ, model๋ณ์๋ก ์ ์ธํ๋ค.
ps. ๋ง์ฐฌ๊ฐ์ง๋ก ๋๋ค ํฌ๋ ์คํธ์ ๋ํ ๋ ์์ธํ ๋ด์ฉ์ ์๋ ๋งํฌ์ ๋์ ์๋ค.
https://github.com/pyohamen/Im-Being-Data-Scientist/wiki/What-is-RandomForest%3F
์ธ๋ฒ์งธ๋ก ์์์ model ๋ณ์ ์ ์ธ์ ํ๋ค๋ฉด, ์ด ๋ชจ๋ธ์ ์ด๋ป๊ฒ ์ด์ฉํด ๋จน์ ์ ์์๊น ์๊ฐํด๋ณด์.
๋จผ์ ๋ชจ๋ธ์ ๋ค์ด๊ฐ x๋ณ์์ y๋ณ์๋ฅผ ์๊ฐํ๋ค.
x๋ณ์๋ ๋ฐ์ดํฐ ์์ธก์ ์ฌ์ฉํ ๋ณ์์ด๊ณ , y ๋ณ์๋ ์์ธก ๊ฒฐ๊ณผ ๋ณ์๊ฐ ๋๋ค.
๋ณดํต ์์ธก ๊ฒฐ๊ณผ๋ก ๋์ฌ y๋ณ์์ ํด๋นํ๋ column์ x๋ณ์ ๋ฒ์์์ ์ ๊ฑฐํ๋ค.
์ฆ, ์ฝ๋๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
x_df = df.drop(['df์์ ์ ์ธํ column name'], axis = 1)
y_df = df['df์์ ์ธ๋ฑ์ฑ ํ column name']
๋นจ๊ฐ ํ์๋ก ๋์ด์๋ ๋ถ๋ถ์ ๋์ผํ column์ ์ง์นญํ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
์ฌ์ค ๋ฐ์ง๊ณ ๋ณด๋ฉด df(๋ฐ์ดํฐ ๊ฐ์ฒด) ์์ฒด์์ ์ ์ธํ๊ณ ์ธ๋ฑ์ฑํ ๊ฒ์ ์๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฏธ ์๋ก์ด ๋ณ์ x_df์ y_df์ ํ ๋นํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ df๋ df๋๋ก ์ฌ์ ํ ๋ณํจ์์ด ์กด์ฌํ๋ค.
๊ทธ๋ฌ๋ ์ดํด๋ฅผ ๋๊ธฐ ์ํด df์์ ๋ด๊ฐ ๋ชจ๋ธ๋ง์์ ์ ์ธํ column, df์์ ๋ด๊ฐ ์ธ๋ฑ์ฑํ column์ด๋ผ๊ณ ์ดํดํ๊ธฐ ์ํด ์์ ๊ฐ์ด ์์ฑํ์๋ค.
x_df์ y_df๋ผ๊ณ ์ด๋ฆ ์ง์ ์ด์ ๋ ๋ณดํต ๋ชจ๋ธ๋งํ๊ณ ์ ํ๋ ๊ฐ์ฒด๋ฅผ ๊ฐ ๋ณ์x,y๋ค์ ๋ถ์ฌ์ ์๊ธฐ ์ฝ๊ฒ ์ด๋ฆ ์ง๊ธฐ ๋๋ฌธ์ด๋ค.
์ด๋ ๊ฒ ๋ชจ๋ธ๋ง ๊ณผ์ ์์ x์ y์ ๋ณ์์ ๋ํด ์ค์ ํ๋ค๋ฉด ๋ชจ๋ธ๋ง ํ๊ฐ ์งํ์ ๋ํด ์์๋ณธ๋ค.
๋ณด๋์ค, ๋ชจ๋ธ๋ง ํ๊ฐ ์งํ
๋ด๊ฐ ์ฐธ๊ณ ํ๊ณ ์๋ DACON ํ์ด์ฌ ํํ ๋ฆฌ์ผ์์๋ ํ๊ฐ์งํ๋ก RMSE๋ฅผ ๋ณด์ฌ์ค๋ค.
RMSE๋ MSE ํ๊ฐ์งํ์ ๋ฃจํธ๋ฅผ ์์ด ๊ฒ์ผ๋ก RFR ๋ชจ๋ธ์ ์ ์ธํ ๋ criterion = 'mse'์ต์ ์ผ๋ก ๊ตฌํํ ์ ์๋ค.
model = RandomForestRegressor(criterion = 'mse')
์ง๊ธ๊น์ง ์ ๋ฆฌํ ๋ด์ฉ์ ์ฝ๋๋ก ์ ๋ฆฌํ๋ฉด ๋ค์๊ณผ ๊ฐ๋ค.
ps. ๋จธ์ ๋ฌ๋ ํ๊ฐ์งํ์ ๋ํ ๋ณด๋์ค ๋ด์ฉ์ ๊ธธ์ด์ ธ์ ๋ค์ ๊ธ ํ์ธ!
'AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL] python Lv2 ์ ์ฒ๋ฆฌ, ๊ฒฐ์ธก์น ํ๊ท ๊ฐ, ๋ณด๊ฐ๋ฒ (1) | 2023.02.08 |
---|---|
[TIL] python ๋ฐ์ดํฐ ์ฝ๊ธฐ ๊ธฐ๋ณธ (1) | 2023.02.01 |