목록데이터분석가 (34)
개발로그필름
t-검정이란?t-검정(T-test) 은 두 그룹 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법📌 1. 컬럼명을 포함하면 안 되는 이유t-검정은 숫자 데이터만 계산 가능t-검정은 숫자(수치형 데이터)만을 이용하여 평균을 비교하는 통계 기법컬럼명(변수명)은 문자(String) 형태이므로, 계산할 수 없음.컬럼명이 포함되면 오류 발생 가능엑셀에서 t-검정을 실행할 때, 변수명이 포함되면 “문자를 숫자로 변환할 수 없다”는 오류가 발생할 가능성이 있음.일부 버전에서는 계산할 수 없는 문자(변수명)가 있으면 그 행을 무시하기도 하지만, 결과가 부정확해질 수 있음.정확한 범위 선택이 중요함!Variable 1 Range, Variable 2 Range는 순수한 숫자 데이터만 포함해야 정확한 분석이 가..

🎯 1. 정규분포란?정규분포는 대칭적인 종(bell) 모양의 분포즉, 데이터가 평균을 중심으로 좌우 대칭을 이루는 형태ex) 키 데이터• 대부분의 사람은 평균 키(예: 170cm) 근처에 몰려 있음.• 키가 아주 작은 사람(예: 150cm)이나 아주 큰 사람(예: 190cm)은 적음.• 평균을 중심으로 좌우가 대칭적으로 분포됨.➡ 이런 데이터가 정규분포를 따르는 데이터 📊 2. 평균, 중앙값, 최빈값이 같아지는 이유(1) 평균(Mean): 모든 값의 합을 데이터 개수로 나눈 값• 데이터를 모두 더해서 개수로 나누면, 정규분포에서는 가운데 중심 값(정점) 근처에 위치 (2) 중앙값(Median): 데이터를 작은 순서부터 정렬했을 때, 딱 중간에 위치한 값• 정규분포에서는 좌우가 대칭이므로, 딱 중간..

이번에는 직업군별 수면시간, 수면의 질을 보면서 데이터분석을 하고 시각화를 해보았다먼저 어떤 직업군이 있고 몇 명이 분포하고 있는지 알아보았다직업군별 데이터 표# 직업군별 데이터 분포를 표로 나타내기occupation_table = sleep_data['Occupation'].value_counts().reset_index()occupation_table.columns = ['Occupation', 'Count']occupation_tablesleep_data의 'Occupation' 열을 선택해value_counts()로 고유한 값의 개수를 계산했다. Series 형태로 결과를 반환해 고유 값이 인덱스에 저장된다reset_index()로 인덱스를 일반 열로 변환하고 기존 인덱스를 재설정한다.column..

박스플롯이란?데이터를 요약해서 다섯 가지 주요 통계 값으로 시각화한다1. 최소값 : 데이터 중 가장 작은 값2. 제1사분위수(Q1) : 데이터의 하위 25% 지점3. 중앙값 : 데이터의 중간값4. 제3사분위수(Q3) : 데이터의 상위 25% 지점5. 최대값 : 데이터 중 가장 큰 값 박스플롯의 구성 요소1. 상자 - 중앙값, Q1, Q3을 나타낸다 - 박스 아래쪽 끝 : Q1 (25%) - 박스 위쪽 끝 : Q3 (75%) - 박스 높이 : IQR(interquartile Range), 즉 Q3-Q1로, 데이터의 중간 50%를 나타낸다2. 중앙값 선 - 상자 안에 있는 굵은 선 - 데이터의 중간값3. 수염 - 박스 위아래로 뻗어나간 선 - 수염은 보통 다음과 같은 범위를 나타낸다 - 아래 수염 :..

이번 질문의 분석을 하기 위해 총 3가지 변수들을 활용했다1. Stress Level(스트레스 수준)2. Sleep Duration(수면 시간)3. Quality of Sleep(수면의 질)import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfile_path = 'Sleep_health_and_lifestyle_dataset.csv'sleep_data = pd.read_csv(file_path)sleep_data # 필요한 열만 선택sleep_data = sleep_data[['Stress Level', 'Sleep Duration', 'Quality of Sleep']]# 결측값 확인sleep_data.isnull().sum(..

히트맵이란?데이터 값을 색상으로 표현하는 그래프"Heat"는 열, 색상으로 데이터의 크기를 표현한다는 뜻에서 붙은 이름데이터 값이 높거나 낮을수록 색상이 달라져서, 어떤 값이 큰지 작은지 시각적으로 한눈에 확인할 수 있다 히트맵의 종류히트맵은 데이터를 색상으로 표현하는 방식이기 때문에 데이터의 목적이나 종류에 따라 다양하게 사용될 수 있다1. 일반 히트맵- 값의 크기를 색상으로 나타낸 단순한 형태- ex) 시험 점수 표를 히트맵으로 표현- 값이 클수록 진한 파란색, 작을수록 연한 파란색으로 표현- 색상만 보고 어느 학생이 어느 과목을 잘했는지 한눈에 확인 가능2. 상관관계 히트맵- 변수들 간의 상관관계를 나타낸 특별한 히트맵- 상관관계는 변수 간의 관계를 수치로 나타낸 것- 양의 상관관계 (값이 증가) ..
산점도(Scatter Plot)란?두 가지 변수 간의 관계를 점으로 표현하는 그래프산처럼 점이 흩어져 있다는 뜻에서 "산점도"라는 이름이 붙었다각 점은 데이터 한 개를 나타내고 두 변수의 값을 x축과 y축에 위치시킨다 산점도는 언제 사용할까?두 변수 간에 어떤 관계가 있는지 알고 싶을 때 사용한다ex)- 공부 시간과 시험 점수의 관계는? -> 공부 시간이 늘어나면 시험 점수도 높아질까?- 스트레스 수준과 수면 시간의 관계는? -> 스트레스가 높으면 수면 시간이 줄어들까? 산점도는 어떻게 생겼을까?1. x축과 y축에 변수 배치 2. x축 값 3, y축 값 73. (3,7) 위치에 점으로 표시 산점도를 통해 알 수 있는 것은?1. 양의 상관관계점들이 대체로 오른쪽 위로 올라가는 형태한 변수가 커질수록 다른 ..

이번 분석에서는 성별에 따라 수면 시간과 수면의 질에 어떤 차이가 있는지를 확인했다.특히 평균과 표준편차를 계산해 그룹 간의 차이를 정량적으로 비교하고, 다양한 시각화 그래프를 사용해 데이터의 분포와 변동성까지 시각적으로 분석했다.1. 분석 목표와 방법 • 평균: 그룹의 중심값을 확인해 대다수 사람들이 어느 정도의 수면 시간을 가지고 있는지 파악. • 표준편차: 각 그룹 내에서 데이터가 평균값을 기준으로 얼마나 흩어져 있는지를 확인. • 표준편차가 낮다 → 평균값 주변에 몰려 있다. 일관된 패턴. • 표준편차가 높다 → 평균값에서 멀리 떨어진 값들이 많다. 변동성이 크다. 2. 데이터 준비 및 코드먼저 성별(Gender)을 기준으로 데이터를 그룹화한 후, 각 그룹의 평균과 표준편차를 계산했다.releva..