일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Bag-of-Words
- BoostCourse
- 비전공자 빅분기 합격
- 스택에 배열 푸시하기
- Til
- Collection if
- 논문초록
- AI
- Python
- tail()
- Naive Bayes Classifier for Document Classification
- interpolate()
- 데이터 결측치
- list
- DeepSpeed
- 아이리포
- llm
- pytorch zero to all
- 자연어 처리 기법
- SQLD 벼락치기
- sklearn.ensemble
- 챗지피티와 업무자동화
- C++
- colab
- inplace=True
- 파인튜닝 메모리 해결
- head()
- sqld
- 데이터 시각화
- 자연어 처리의 모든것
- Today
- Total
목록데이터 결측치 (2)
hyerong's Dev_world🎡

파이썬을 통해 데이터를 전처리하는 과정에서 데이터 결측치(missing data)를 만났을때 해결방법 2가지를 소개한다. 첫번째는 결측치에 대해 데이터의 평균값으로 메꾸는 방법 두번재는 보간법을 사용하는 방법이다. 먼저 결측치의 개념을 다시 짚어보자면 missing data 즉, 잃어버린 데이터, 데이터가 담긴 표에서, 행에 대해 데이터 값을 넣는 열이 비어있다고 생각하면 된다. 예를 들어, 학생들의 학번이라는 행에서 특정 학생의 학번 칸이 비어져 있다고 생각하면 된다. 이름 학번 홍길동 21900123 심청이 (missing data) 로빈훗 21500321 위 표에서는 심청이의 학번에서 데이터 missing이 발생한다. 이런 빈 데이터가 있을가봐 데이터 전처리 과정을 거치는 것이다. 프로그래머는 이런..

파이썬으로 데이터를 읽어올때 주로 colab을 사용하는 편이다. 웹이라 접근성도 편하고 끄고 키기 편하고 가벼운 느낌. 1. read_csv 엑셀이나 다양한 데이터를 가져올때 read_csv를 사용하여 가져온다 먼저 import로 판다랑 인사하면 데이터 받을 객체에 read_csv('파일 이름.확장자')를 대입해주면된다. 2. 데이터 결측치 확인 데이터를 받으면 데이터 결측치를 확인해야한다는 말이 있다. 데이터가 빈게 있는지 없는지 알아보는 것이다. 계란 한판 사기전 30개가 다 있는지 확인하는 느낌이랄까? 영어로 Missing Value라고 한다. 줄여서 NA라고도 하는데 null이라고 생각하면 쉽다. 판다는 NaN이라고 부른다. 메서드도 쉽게 기억할 수 있다. isnull()이다. 문자 그대로 is ..