개발로그필름
[데이터 TIL] 수치형 데이터와 범주형 데이터의 차이 본문
728x90
반응형
SMALL
✅ 수치형 데이터(Numerical Data) vs 범주형 데이터(Categorical Data)
데이터 분석에서 수치형 데이터와 범주형 데이터를 구분하는 것은 매우 중요 ⭐️⭐️⭐️
각각의 차이를 쉽게 정리했다
1. 수치형 데이터 (Numerical Data)
📌 정의:
• 숫자로 표현되는 데이터이며, 연산(더하기, 빼기, 평균 계산 등)이 가능함.
📌 특징:
• 크기 비교(>, <, = 등) 가능
• 평균, 합, 표준편차 계산 가능
• 연속적이거나 이산적인 값 가짐
📌 예시:
• 키(cm), 몸무게(kg), 나이(년), 가격(₩), 온도(℃), 점수
📌 수치형 데이터의 두 가지 유형:
유형 | 설명 | 예시 |
연속형 데이터 (Continuous Data) |
실수 값을 가지며, 무한한 값 존재 가능 |
키(170.5cm), 체온(36.7℃), 몸무게(68.3kg) |
이산형 데이터 (Discrete Data) |
정수 값만 가능하며, 개수로 셀 수 있음 | 나이(25세), 직원 수(50명), 주사위 값(1~6) |
2. 범주형 데이터 (Categorical Data)
📌 정의:
• 특정한 범주(카테고리) 로 구분되는 데이터이며, 숫자로 표시될 수도 있지만 계산은 불가능함.
📌 특징:
• 크기 비교 불가능 (예: “남자” vs “여자” → > 연산 불가능)
• 평균 계산 불가능 (예: “차 색상”의 평균?)
• 특정 그룹을 나타냄
📌 예시:
• 성별(남/여), 혈액형(A/B/O/AB), 국가(한국/미국/일본), 제품 카테고리(전자제품/식품/의류)
📌 범주형 데이터의 두 가지 유형:
유형 | 설명 | 예시 |
명목형 데이터 (Nominal Data) |
순서가 없는 범주 데이터 |
성별(남/여), 국가(한국/미국), 혈액형(A/B/O/AB) |
서열형 데이터 (Ordinal Data) |
순서가 존재하는 범주 데이터 | 학점(A/B/C/D/F), 고객 만족도(좋음/보통/나쁨) |
반응형
3. 차이점 정리
구분 | 수치형 데이터 | 범주형 데이터 |
데이터 형태 | 숫자 (정수, 실수) | 문자 또는 숫자로 표현되는 범주 |
크기 비교 가능 여부 | O (가능) | X (불가능) |
평균 계산 가능 여부 | O (가능) | X (불가능) |
예시 | 키(170cm), 나이(25세), 가격(₩5000) | 성별(남/여), 혈액형(A/B/O), 학점(A/B/C) |
4. 데이터 구분하는 방법
데이터프레임에서 수치형과 범주형 데이터를 쉽게 구분하려면 dtypes을 사용
import pandas as pd
# 예제 데이터 생성
data = {
'나이': [25, 32, 40, 19], # 수치형 데이터 (이산형)
'키': [170.5, 165.2, 180.0, 155.8], # 수치형 데이터 (연속형)
'성별': ['남', '여', '남', '여'], # 범주형 데이터 (명목형)
'학점': ['A', 'B', 'C', 'A'] # 범주형 데이터 (서열형)
}
df = pd.DataFrame(data)
# 데이터 타입 확인
print(df.dtypes)
🔹 int64, float64 → 수치형 데이터
🔹 object, category → 범주형 데이터
📌
• 수치형 데이터: 숫자로 표현되고, 연산 가능
• 범주형 데이터: 그룹으로 나뉘며, 연산 불가능
• 분석 전에 데이터 타입을 정확히 구분하는 것이 중요!
반응형
LIST
'데이터분석가 > 데이터 TIL' 카테고리의 다른 글
[데이터 TIL] Pair Plot에 대해 알아보자 (0) | 2025.02.07 |
---|---|
[데이터 TIL] 히트맵을 알아보자 (1) | 2025.02.07 |
[데이터 TIL] 칼럼별 결측치 비율 확인하기 (0) | 2025.02.06 |
[데이터 TIL] pandas에서 CSV 파일을 읽을 때 한글 인코딩 문제 해결 (0) | 2025.02.06 |
[데이터 TIL] to_datetime() vs to_timedelta() 차이점 (0) | 2025.02.06 |
Comments