목록전체 글 (222)
개발로그필름
from mlxtend.preprocessing import TransactionEncoderte = TransactionEncoder()basket_encoded = te.fit(basket_data).transform(basket_data)basket_df = pd.DataFrame(basket_encoded, columns=te.columns_)- 장바구니 데이터를 One-Hot Encoding 형태의 이진 행렬로 변환하는 과정- 이를 통해 Apriori 알고리즘 등 연관 규칙 분석을 수행할 수 있도록 데이터 변환 1. TransactionEncoder() 객체 생성te = TransactionEncoder()- TransactionEncoder() : 장바구니 데이터를 이진 행렬로 변환하는 도구-..
df.groupby("id")["product"].apply(list).tolist()=> id별 구매한 제품 product를 리스트 형태로 변환하는 코드 1. groupby("id")- df를 id별로 그룹화한다- 같은 고객 id를 가진 데이터끼리 묶인다 2. ["product"]- product를 선택해서 고객별 구매한 제품만 추출한다 3. .apply(list)- 각 고객이 구매한 제품(product)를 리스트 형태로 변환한다- 즉, 같은 고객이 구매한 모든 product 값을 하나의 리스트로 저장한다 4. .tolist()- 최종적으로 각 고객별 제품 리스트를 요소로 갖는 리스트를 생성한다 예제 데이터import pandas as pd# 예제 데이터 생성data = { "id": [101, ..
t-검정이란?t-검정(T-test) 은 두 그룹 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법📌 1. 컬럼명을 포함하면 안 되는 이유t-검정은 숫자 데이터만 계산 가능t-검정은 숫자(수치형 데이터)만을 이용하여 평균을 비교하는 통계 기법컬럼명(변수명)은 문자(String) 형태이므로, 계산할 수 없음.컬럼명이 포함되면 오류 발생 가능엑셀에서 t-검정을 실행할 때, 변수명이 포함되면 “문자를 숫자로 변환할 수 없다”는 오류가 발생할 가능성이 있음.일부 버전에서는 계산할 수 없는 문자(변수명)가 있으면 그 행을 무시하기도 하지만, 결과가 부정확해질 수 있음.정확한 범위 선택이 중요함!Variable 1 Range, Variable 2 Range는 순수한 숫자 데이터만 포함해야 정확한 분석이 가..

🎯 1. 정규분포란?정규분포는 대칭적인 종(bell) 모양의 분포즉, 데이터가 평균을 중심으로 좌우 대칭을 이루는 형태ex) 키 데이터• 대부분의 사람은 평균 키(예: 170cm) 근처에 몰려 있음.• 키가 아주 작은 사람(예: 150cm)이나 아주 큰 사람(예: 190cm)은 적음.• 평균을 중심으로 좌우가 대칭적으로 분포됨.➡ 이런 데이터가 정규분포를 따르는 데이터 📊 2. 평균, 중앙값, 최빈값이 같아지는 이유(1) 평균(Mean): 모든 값의 합을 데이터 개수로 나눈 값• 데이터를 모두 더해서 개수로 나누면, 정규분포에서는 가운데 중심 값(정점) 근처에 위치 (2) 중앙값(Median): 데이터를 작은 순서부터 정렬했을 때, 딱 중간에 위치한 값• 정규분포에서는 좌우가 대칭이므로, 딱 중간..

이번에는 직업군별 수면시간, 수면의 질을 보면서 데이터분석을 하고 시각화를 해보았다먼저 어떤 직업군이 있고 몇 명이 분포하고 있는지 알아보았다직업군별 데이터 표# 직업군별 데이터 분포를 표로 나타내기occupation_table = sleep_data['Occupation'].value_counts().reset_index()occupation_table.columns = ['Occupation', 'Count']occupation_tablesleep_data의 'Occupation' 열을 선택해value_counts()로 고유한 값의 개수를 계산했다. Series 형태로 결과를 반환해 고유 값이 인덱스에 저장된다reset_index()로 인덱스를 일반 열로 변환하고 기존 인덱스를 재설정한다.column..

박스플롯이란?데이터를 요약해서 다섯 가지 주요 통계 값으로 시각화한다1. 최소값 : 데이터 중 가장 작은 값2. 제1사분위수(Q1) : 데이터의 하위 25% 지점3. 중앙값 : 데이터의 중간값4. 제3사분위수(Q3) : 데이터의 상위 25% 지점5. 최대값 : 데이터 중 가장 큰 값 박스플롯의 구성 요소1. 상자 - 중앙값, Q1, Q3을 나타낸다 - 박스 아래쪽 끝 : Q1 (25%) - 박스 위쪽 끝 : Q3 (75%) - 박스 높이 : IQR(interquartile Range), 즉 Q3-Q1로, 데이터의 중간 50%를 나타낸다2. 중앙값 선 - 상자 안에 있는 굵은 선 - 데이터의 중간값3. 수염 - 박스 위아래로 뻗어나간 선 - 수염은 보통 다음과 같은 범위를 나타낸다 - 아래 수염 :..

이번 질문의 분석을 하기 위해 총 3가지 변수들을 활용했다1. Stress Level(스트레스 수준)2. Sleep Duration(수면 시간)3. Quality of Sleep(수면의 질)import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfile_path = 'Sleep_health_and_lifestyle_dataset.csv'sleep_data = pd.read_csv(file_path)sleep_data # 필요한 열만 선택sleep_data = sleep_data[['Stress Level', 'Sleep Duration', 'Quality of Sleep']]# 결측값 확인sleep_data.isnull().sum(..

히트맵이란?데이터 값을 색상으로 표현하는 그래프"Heat"는 열, 색상으로 데이터의 크기를 표현한다는 뜻에서 붙은 이름데이터 값이 높거나 낮을수록 색상이 달라져서, 어떤 값이 큰지 작은지 시각적으로 한눈에 확인할 수 있다 히트맵의 종류히트맵은 데이터를 색상으로 표현하는 방식이기 때문에 데이터의 목적이나 종류에 따라 다양하게 사용될 수 있다1. 일반 히트맵- 값의 크기를 색상으로 나타낸 단순한 형태- ex) 시험 점수 표를 히트맵으로 표현- 값이 클수록 진한 파란색, 작을수록 연한 파란색으로 표현- 색상만 보고 어느 학생이 어느 과목을 잘했는지 한눈에 확인 가능2. 상관관계 히트맵- 변수들 간의 상관관계를 나타낸 특별한 히트맵- 상관관계는 변수 간의 관계를 수치로 나타낸 것- 양의 상관관계 (값이 증가) ..