목록데이터분석가/데이터 TIL (23)
개발로그필름
보통 컬럼별 결측치 개수 확인하는 방법은 간단하다health_df.isnull().sum()이 코드 한 줄 실행시키면 칼럼별 결측치 개수가 쭉 나온다 그렇다면 컬럼별 결측치 비율은 어떻게 확인할까?✅ 결측치 비율을 확인하는 방법health_df.isnull().mean() * 100이 코드는 좀 생소하다. mean()은 평균값 구하는 함수 아닌가? 왜 저기에?하나하나 차근차근 살펴보도록 하자 mean()이 일반적으로 평균값을 계산하는 함수이지만, isnull()과 함께 사용하면 결측치 비율을 구할 수 있다 ✅ 1. isnull()이 하는 일health_df.isnull()이 함수는 각 값이 결측치인지(True) 아닌지(False)를 반환하는 불리언 데이터프레임을 만든다True는 1, False는 0으로..
pandas에서 CSV 파일을 읽을 때 한글 인코딩 문제를 해결하려면encoding='utf-8' 또는 encoding='cp949'을 추가해야 한다. ✅ 한글이 포함된 CSV 파일을 읽을 때import pandas as pd# UTF-8 인코딩으로 읽기health_df = pd.read_csv(file_path, encoding='utf-8')# 만약 utf-8에서 오류가 나면 cp949(윈도우 기본 인코딩) 사용health_df = pd.read_csv(file_path, encoding='cp949')# 또는 euc-kr(한글 완성형 인코딩) 사용health_df = pd.read_csv(file_path, encoding='euc-kr') 📌 인코딩 관련 에러 해결 • UnicodeDecod..
📌 to_datetime() vs to_timedelta() 차이점둘 다 Pandas에서 날짜 및 시간 처리를 위한 함수이지만, 역할이 다르다 1️⃣ to_datetime()📌 “문자열 → 날짜/시간(datetime)” 변환- 문자열이나 숫자를 날짜(datetime) 형식으로 변환하는 함수 ✅ 사용 예시import pandas as pd# 날짜 문자열을 datetime으로 변환date_series = pd.to_datetime(["2023-01-01", "2023-06-15", "2023-12-31"])print(date_series) 출력 결과DatetimeIndex(['2023-01-01', '2023-06-15', '2023-12-31'], dtype='datetime64[ns]', freq=..
from mlxtend.preprocessing import TransactionEncoderte = TransactionEncoder()basket_encoded = te.fit(basket_data).transform(basket_data)basket_df = pd.DataFrame(basket_encoded, columns=te.columns_)- 장바구니 데이터를 One-Hot Encoding 형태의 이진 행렬로 변환하는 과정- 이를 통해 Apriori 알고리즘 등 연관 규칙 분석을 수행할 수 있도록 데이터 변환 1. TransactionEncoder() 객체 생성te = TransactionEncoder()- TransactionEncoder() : 장바구니 데이터를 이진 행렬로 변환하는 도구-..
df.groupby("id")["product"].apply(list).tolist()=> id별 구매한 제품 product를 리스트 형태로 변환하는 코드 1. groupby("id")- df를 id별로 그룹화한다- 같은 고객 id를 가진 데이터끼리 묶인다 2. ["product"]- product를 선택해서 고객별 구매한 제품만 추출한다 3. .apply(list)- 각 고객이 구매한 제품(product)를 리스트 형태로 변환한다- 즉, 같은 고객이 구매한 모든 product 값을 하나의 리스트로 저장한다 4. .tolist()- 최종적으로 각 고객별 제품 리스트를 요소로 갖는 리스트를 생성한다 예제 데이터import pandas as pd# 예제 데이터 생성data = { "id": [101, ..
t-검정이란?t-검정(T-test) 은 두 그룹 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법📌 1. 컬럼명을 포함하면 안 되는 이유t-검정은 숫자 데이터만 계산 가능t-검정은 숫자(수치형 데이터)만을 이용하여 평균을 비교하는 통계 기법컬럼명(변수명)은 문자(String) 형태이므로, 계산할 수 없음.컬럼명이 포함되면 오류 발생 가능엑셀에서 t-검정을 실행할 때, 변수명이 포함되면 “문자를 숫자로 변환할 수 없다”는 오류가 발생할 가능성이 있음.일부 버전에서는 계산할 수 없는 문자(변수명)가 있으면 그 행을 무시하기도 하지만, 결과가 부정확해질 수 있음.정확한 범위 선택이 중요함!Variable 1 Range, Variable 2 Range는 순수한 숫자 데이터만 포함해야 정확한 분석이 가..

🎯 1. 정규분포란?정규분포는 대칭적인 종(bell) 모양의 분포즉, 데이터가 평균을 중심으로 좌우 대칭을 이루는 형태ex) 키 데이터• 대부분의 사람은 평균 키(예: 170cm) 근처에 몰려 있음.• 키가 아주 작은 사람(예: 150cm)이나 아주 큰 사람(예: 190cm)은 적음.• 평균을 중심으로 좌우가 대칭적으로 분포됨.➡ 이런 데이터가 정규분포를 따르는 데이터 📊 2. 평균, 중앙값, 최빈값이 같아지는 이유(1) 평균(Mean): 모든 값의 합을 데이터 개수로 나눈 값• 데이터를 모두 더해서 개수로 나누면, 정규분포에서는 가운데 중심 값(정점) 근처에 위치 (2) 중앙값(Median): 데이터를 작은 순서부터 정렬했을 때, 딱 중간에 위치한 값• 정규분포에서는 좌우가 대칭이므로, 딱 중간..