ํ์ด์ฌ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ฝ์ด์ฌ๋ ์ฃผ๋ก colab์ ์ฌ์ฉํ๋ ํธ์ด๋ค.
์น์ด๋ผ ์ ๊ทผ์ฑ๋ ํธํ๊ณ ๋๊ณ ํค๊ธฐ ํธํ๊ณ ๊ฐ๋ฒผ์ด ๋๋.
1. read_csv
์์ ์ด๋ ๋ค์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ฌ๋ read_csv๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ์ ธ์จ๋ค
๋จผ์ import๋ก ํ๋ค๋ ์ธ์ฌํ๋ฉด ๋ฐ์ดํฐ ๋ฐ์ ๊ฐ์ฒด์ read_csv('ํ์ผ ์ด๋ฆ.ํ์ฅ์')๋ฅผ ๋์ ํด์ฃผ๋ฉด๋๋ค.
2. ๋ฐ์ดํฐ ๊ฒฐ์ธก์น ํ์ธ
๋ฐ์ดํฐ๋ฅผ ๋ฐ์ผ๋ฉด ๋ฐ์ดํฐ ๊ฒฐ์ธก์น๋ฅผ ํ์ธํด์ผํ๋ค๋ ๋ง์ด ์๋ค. ๋ฐ์ดํฐ๊ฐ ๋น๊ฒ ์๋์ง ์๋์ง ์์๋ณด๋ ๊ฒ์ด๋ค.
๊ณ๋ ํํ ์ฌ๊ธฐ์ 30๊ฐ๊ฐ ๋ค ์๋์ง ํ์ธํ๋ ๋๋์ด๋๊น?
์์ด๋ก Missing Value๋ผ๊ณ ํ๋ค. ์ค์ฌ์ NA๋ผ๊ณ ๋ ํ๋๋ฐ null์ด๋ผ๊ณ ์๊ฐํ๋ฉด ์ฝ๋ค.
ํ๋ค๋ NaN์ด๋ผ๊ณ ๋ถ๋ฅธ๋ค. ๋ฉ์๋๋ ์ฝ๊ฒ ๊ธฐ์ตํ ์ ์๋ค. isnull()์ด๋ค.
๋ฌธ์ ๊ทธ๋๋ก is null?์ด๋๊ณ ๋ฌป๊ธฐ ๋๋ฌธ์ ๋ฆฌํด๊ฐ์ด true๋ฉด NaN, false๋ ๊ทธ ๋ฐ๋๋ค.
3. head() , tail()
๋ฐ์ดํฐ์์ ์์ 5๊ฐ(0~4), ๋์์ 5๊ฐ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ฐ์ธ์ ์ผ๋ก๋ tail์ ์ด์ฉํ๋ฉด ๋ง์ง๋ง ํญ๋ชฉ์ด ํฌํจ๋๋๊น ๋ช๊ฐ์ธ์ง ํ์ธํ๊ธฐ ๋ ์ฌ์ด ๊ฒ ๊ฐ๋ค.
4. shape
๊ทธ๋ฌ๋ ๊ฐ์ ์ธ์๋ ํ๊ณผ ์ด์ ์๋ฅผ ๋ฐ๋ก ์๊ณ ์ถ๋ค๋ฉด .shape๋ฅผ ํตํด ์์์๋ค.
5. info()
๋ฐ์ดํฐ์ Column๊ณผ null ์ ๋ฌด, ๋ฐ์ดํฐ ํ์ ์ ํ๋ฒ์ ๋ณด์ฌ์ฃผ๋ ๋ฉ์๋๋ค.
'AI' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[TIL] python ๋ชจ๋ธ๋ง : RandomForestRegressor ๋ชจ๋ธ ์ฌ์ฉ (1) | 2023.02.08 |
---|---|
[TIL] python Lv2 ์ ์ฒ๋ฆฌ, ๊ฒฐ์ธก์น ํ๊ท ๊ฐ, ๋ณด๊ฐ๋ฒ (1) | 2023.02.08 |