목록데이터분석 (40)
개발로그필름

이번에는 직업군별 수면시간, 수면의 질을 보면서 데이터분석을 하고 시각화를 해보았다먼저 어떤 직업군이 있고 몇 명이 분포하고 있는지 알아보았다직업군별 데이터 표# 직업군별 데이터 분포를 표로 나타내기occupation_table = sleep_data['Occupation'].value_counts().reset_index()occupation_table.columns = ['Occupation', 'Count']occupation_tablesleep_data의 'Occupation' 열을 선택해value_counts()로 고유한 값의 개수를 계산했다. Series 형태로 결과를 반환해 고유 값이 인덱스에 저장된다reset_index()로 인덱스를 일반 열로 변환하고 기존 인덱스를 재설정한다.column..

박스플롯이란?데이터를 요약해서 다섯 가지 주요 통계 값으로 시각화한다1. 최소값 : 데이터 중 가장 작은 값2. 제1사분위수(Q1) : 데이터의 하위 25% 지점3. 중앙값 : 데이터의 중간값4. 제3사분위수(Q3) : 데이터의 상위 25% 지점5. 최대값 : 데이터 중 가장 큰 값 박스플롯의 구성 요소1. 상자 - 중앙값, Q1, Q3을 나타낸다 - 박스 아래쪽 끝 : Q1 (25%) - 박스 위쪽 끝 : Q3 (75%) - 박스 높이 : IQR(interquartile Range), 즉 Q3-Q1로, 데이터의 중간 50%를 나타낸다2. 중앙값 선 - 상자 안에 있는 굵은 선 - 데이터의 중간값3. 수염 - 박스 위아래로 뻗어나간 선 - 수염은 보통 다음과 같은 범위를 나타낸다 - 아래 수염 :..

이번 질문의 분석을 하기 위해 총 3가지 변수들을 활용했다1. Stress Level(스트레스 수준)2. Sleep Duration(수면 시간)3. Quality of Sleep(수면의 질)import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfile_path = 'Sleep_health_and_lifestyle_dataset.csv'sleep_data = pd.read_csv(file_path)sleep_data # 필요한 열만 선택sleep_data = sleep_data[['Stress Level', 'Sleep Duration', 'Quality of Sleep']]# 결측값 확인sleep_data.isnull().sum(..

히트맵이란?데이터 값을 색상으로 표현하는 그래프"Heat"는 열, 색상으로 데이터의 크기를 표현한다는 뜻에서 붙은 이름데이터 값이 높거나 낮을수록 색상이 달라져서, 어떤 값이 큰지 작은지 시각적으로 한눈에 확인할 수 있다 히트맵의 종류히트맵은 데이터를 색상으로 표현하는 방식이기 때문에 데이터의 목적이나 종류에 따라 다양하게 사용될 수 있다1. 일반 히트맵- 값의 크기를 색상으로 나타낸 단순한 형태- ex) 시험 점수 표를 히트맵으로 표현- 값이 클수록 진한 파란색, 작을수록 연한 파란색으로 표현- 색상만 보고 어느 학생이 어느 과목을 잘했는지 한눈에 확인 가능2. 상관관계 히트맵- 변수들 간의 상관관계를 나타낸 특별한 히트맵- 상관관계는 변수 간의 관계를 수치로 나타낸 것- 양의 상관관계 (값이 증가) ..
산점도(Scatter Plot)란?두 가지 변수 간의 관계를 점으로 표현하는 그래프산처럼 점이 흩어져 있다는 뜻에서 "산점도"라는 이름이 붙었다각 점은 데이터 한 개를 나타내고 두 변수의 값을 x축과 y축에 위치시킨다 산점도는 언제 사용할까?두 변수 간에 어떤 관계가 있는지 알고 싶을 때 사용한다ex)- 공부 시간과 시험 점수의 관계는? -> 공부 시간이 늘어나면 시험 점수도 높아질까?- 스트레스 수준과 수면 시간의 관계는? -> 스트레스가 높으면 수면 시간이 줄어들까? 산점도는 어떻게 생겼을까?1. x축과 y축에 변수 배치 2. x축 값 3, y축 값 73. (3,7) 위치에 점으로 표시 산점도를 통해 알 수 있는 것은?1. 양의 상관관계점들이 대체로 오른쪽 위로 올라가는 형태한 변수가 커질수록 다른 ..

이번 분석에서는 성별에 따라 수면 시간과 수면의 질에 어떤 차이가 있는지를 확인했다.특히 평균과 표준편차를 계산해 그룹 간의 차이를 정량적으로 비교하고, 다양한 시각화 그래프를 사용해 데이터의 분포와 변동성까지 시각적으로 분석했다.1. 분석 목표와 방법 • 평균: 그룹의 중심값을 확인해 대다수 사람들이 어느 정도의 수면 시간을 가지고 있는지 파악. • 표준편차: 각 그룹 내에서 데이터가 평균값을 기준으로 얼마나 흩어져 있는지를 확인. • 표준편차가 낮다 → 평균값 주변에 몰려 있다. 일관된 패턴. • 표준편차가 높다 → 평균값에서 멀리 떨어진 값들이 많다. 변동성이 크다. 2. 데이터 준비 및 코드먼저 성별(Gender)을 기준으로 데이터를 그룹화한 후, 각 그룹의 평균과 표준편차를 계산했다.releva..

드디어 프로젝트의 첫 문을 열었다. 질문은 간단하다. “수면 시간과 수면의 질 간의 상관관계는 무엇일까?” 솔직히 말해서, 데이터 분석을 하지 않아도 “잠을 많이 자면 수면 질도 좋지 않을까?” 하고 얼추 예상할 수 있는 질문이다. 그래도 이 프로젝트는 결과보다 내가 지금껏 배운 것들을 복습하고 공부하려는 과정에 더 큰 의미가 있다. 직접 데이터를 다뤄보며 조금 더 객관적이고 구체적인 답을 찾아보려고 한다. 분석 과정수면 시간과 수면의 질의 관계를 살펴보기 위해 데이터를 다음과 같은 단계로 처리했다.우선, 필요한 두 개의 열(Sleep Duration과 Quality of Sleep)을 데이터셋에서 추출했다. 그런 다음, 두 변수 간의 상관계수(correlation)를 계산하고, 산점도(scatter p..
평소에 수면에 대해 많은 관심을 가지고 있다. 잠이 많기도 하고, 잠을 잘 때 느끼는 행복감(?) 때문에 더욱 그런 것 같다. 하지만 늘 한 가지 고민이 따라다닌다. “내게 필요한 적정 수면 시간은 몇 시간일까?” 가끔은 알람 소리를 듣지도 못하고 깊이 잠들 때도 있고, 어떤 날은 충분히 잤는데도 하루 종일 피곤하다. 반대로 잠을 조금밖에 못 잤는데도 놀랍게 개운하게 하루를 시작할 때도 있다. 이렇다 보니 나만의 수면 패턴을 찾고 싶어 다양한 방법들을 시도해봤다. • 수면 어플로 최적의 수면 사이클을 계산해 잠들어보기 • 휴대폰을 멀리 두고 자기 • 운동량을 늘리기 • 카페인 섭취량 조절 수많은 시행착오를 거쳤지만, 여전히 내 적정 수면 시간을 확신하지 못하고 있다. 하루 종일 피곤하지 않은 상태로 깨어..