본문 바로가기
Data#Data조회 1

Data Cleaning란?

정의

raw 데이터의 결측·이상·중복·오타를 정리하는 작업. 데이터 사이언스 시간의 80%.

다른 표현데이터 클리닝

Data Cleaning이란?

"Data Scientist는 시간의 80%를 cleaning에 쓴다"는 말이 있을 정도로 중요하다.

주요 작업

  • 결측값(NaN) 처리
  • 이상치 탐지
  • 중복 제거
  • 타입 통일
  • 포맷 정규화

🔗 함께 보면 좋은 용어

Data 전체 →