개발로그필름

[데이터 TIL] 수치형 데이터와 범주형 데이터의 차이 본문

데이터분석가/데이터 TIL

[데이터 TIL] 수치형 데이터와 범주형 데이터의 차이

yuullog 2025. 2. 7. 06:39
728x90
반응형
SMALL

✅ 수치형 데이터(Numerical Data) vs 범주형 데이터(Categorical Data)

데이터 분석에서 수치형 데이터와 범주형 데이터를 구분하는 것은 매우 중요 ⭐️⭐️⭐️

각각의 차이를 쉽게 정리했다

 


 

1. 수치형 데이터 (Numerical Data)

📌 정의:

숫자로 표현되는 데이터이며, 연산(더하기, 빼기, 평균 계산 등)이 가능함.

 

📌 특징:

크기 비교(>, <, = 등) 가능

평균, 합, 표준편차 계산 가능

연속적이거나 이산적인 값 가짐

 

📌 예시:

키(cm), 몸무게(kg), 나이(년), 가격(₩), 온도(℃), 점수

 

📌 수치형 데이터의 두 가지 유형:

유형 설명 예시
연속형 데이터 (Continuous Data)
실수 값을 가지며, 무한한 값 존재 가능
키(170.5cm), 체온(36.7℃), 몸무게(68.3kg)

이산형 데이터 (Discrete Data)
정수 값만 가능하며, 개수로 셀 수 있음 나이(25세), 직원 수(50명), 주사위 값(1~6)

 


 

2. 범주형 데이터 (Categorical Data)

📌 정의:

특정한 범주(카테고리) 로 구분되는 데이터이며, 숫자로 표시될 수도 있지만 계산은 불가능함.

 

📌 특징:

크기 비교 불가능 (예: “남자” vs “여자” → > 연산 불가능)

평균 계산 불가능 (예: “차 색상”의 평균?)

특정 그룹을 나타냄

 

📌 예시:

성별(남/여), 혈액형(A/B/O/AB), 국가(한국/미국/일본), 제품 카테고리(전자제품/식품/의류)

 

📌 범주형 데이터의 두 가지 유형:

유형 설명 예시
명목형 데이터 (Nominal Data)
순서가 없는 범주 데이터
성별(남/여), 국가(한국/미국), 혈액형(A/B/O/AB)
서열형 데이터 (Ordinal Data)
순서가 존재하는 범주 데이터 학점(A/B/C/D/F), 고객 만족도(좋음/보통/나쁨)

 


반응형

 

 

3. 차이점 정리

구분 수치형 데이터 범주형 데이터
데이터 형태 숫자 (정수, 실수) 문자 또는 숫자로 표현되는 범주
크기 비교 가능 여부 O (가능) X (불가능)
평균 계산 가능 여부 O (가능) X (불가능)
예시 키(170cm), 나이(25세), 가격(₩5000) 성별(남/여), 혈액형(A/B/O), 학점(A/B/C)

 


 

4. 데이터 구분하는 방법

데이터프레임에서 수치형과 범주형 데이터를 쉽게 구분하려면 dtypes을 사용

import pandas as pd

# 예제 데이터 생성
data = {
    '나이': [25, 32, 40, 19],         # 수치형 데이터 (이산형)
    '키': [170.5, 165.2, 180.0, 155.8], # 수치형 데이터 (연속형)
    '성별': ['남', '여', '남', '여'],   # 범주형 데이터 (명목형)
    '학점': ['A', 'B', 'C', 'A']       # 범주형 데이터 (서열형)
}

df = pd.DataFrame(data)

# 데이터 타입 확인
print(df.dtypes)

🔹 int64, float64 → 수치형 데이터

🔹 object, category → 범주형 데이터

 

📌 

수치형 데이터: 숫자로 표현되고, 연산 가능

범주형 데이터: 그룹으로 나뉘며, 연산 불가능

분석 전에 데이터 타입을 정확히 구분하는 것이 중요!

반응형
LIST
Comments