목록데이터분석가/데이터 TIL (23)
개발로그필름
📌 백분위수란?백분위수(percentile)는 데이터를 100등분한 값을 의미한다쉽게 말해, 전체 데이터를 낮은 값에서 높은 값까지 정렬한 후, 특정 값이 전체에서 몇 퍼센트 위치에 있는지를 나타내는 것 🎯 쉽게 이해하는 예시👉 예를 들어, 100명의 학생이 시험을 본 결과를 가지고 있다- 만약 내 점수가 백분위수 90이라면?-> 내 점수보다 낮은 학생이 전체의 90%라는 뜻. 즉, 상위 10%에 속한다는 의미- 만약 내 점수가 백분위수 50이라면?-> 내 점수보다 낮은 학생이 전체의 50%라는 뜻이야. 즉, 중간(중앙값, 50%)에 위치한다는 의미 📊 백분위수 계산 방법1️⃣ 데이터 정렬하기먼저 모든 데이터를 낮은 값부터 높은 값까지 정렬 2️⃣ 원하는 백분위수 찾기백분위수 P%에 해당하는 ..
ci=None은 신뢰구간(confidence interval, CI)을 비활성화하는 옵션즉, 막대 그래프(Bar Plot)에 신뢰구간을 표시하지 않도록 설정하는 것 1️⃣ 신뢰구간(CI, Confidence Interval)이란?- sns.barplot()을 사용할 때 기본적으로 각 막대 위에 오차 막대(Error Bar)가 추가- 이 오차 막대는 신뢰구간(CI, Confidence Interval)- 신뢰구간이란, 해당 평균값이 일정한 확률(보통 95%)로 실제 평균을 포함할 가능성이 있는 범위 📌 예를 들어, ci=95를 사용하면 → 95% 신뢰구간이 추가📌 ci=None을 사용하면 → 신뢰구간이 표시되지 않음 2️⃣ ci=None을 쓰는 이유기본적으로 Seaborn은 평균값을 계산할 때 신..
데이터분석을 하다보면 여러 그래프를 찍어볼때가 많은데 변수가 한글인 경우가 많이 있다그럴때마다 따로 설정을 안해주면 한글이 다 네모 표시로 뜨게 되는데 한글로 바꾸는 방법은 단 한줄의 코드로 할 수 있다는 사실! !pip install koreanize_matplotlib -q먼저 이 코드를 실행시켜서 install을 하고 import koreanize_matplotlib이 코드 하나만 import 해주면 마법같이 한글로 잘 나오는 것을 볼 수 있다 여기서 한가지 더!좀 더 명확하고 선명한 그래프를 보고 싶다면%config InlineBackend.figure_format = 'retina' 단 한줄의 코드로 슉슉 해결해내는거 재밌고 멋있다,,,배우면 배울수록 짜릿한 데이터 분석 ~,~
데이터 분석을 하면서 그래프를 찍어볼때 해당 환경에서 이상한 warning 문구가 쭉 나열되는 경우가 가끔 있다.에러는 아닌데 경고 문구가 길게 있으면 내가 원하는 그래프를 바로바로 볼 수가 없어서 거슬렸다.그런 warning 문구를 한번에 해결해 줄 수 있는 코드가import warningswarnings.simplefilter('ignore')바로 이 위에 있는 코드이다 warnings를 import 해주고 해당 코드를 실행시켜주면 거슬렸던(?) warnings 문구가 말끔히 사라진것을 볼 수 있다
📌 1️⃣ pivot_table()이란?pivot_table()은 Pandas에서 제공하는 강력한 데이터 분석 도구쉽게 말하면, 엑셀의 피벗 테이블과 같은 기능을 수행하는 함수 • 행(index)과 열(columns)을 기준으로 데이터를 요약해서 정리해주는 도구 • 숫자 데이터를 그룹화하여 평균, 합계, 개수 등을 계산할 수 있음 📌 2️⃣ pivot_table() 기본 사용법df.pivot_table(index='행 컬럼', columns='열 컬럼', values='값을 요약할 컬럼', aggfunc='집계함수')-집계 함수는 mean, sum, count, max, min 등을 말한다 📌 3️⃣ pivot_table() 직접 사용🎯 샘플 데이터먼저 간단한 데이터프레임을 만들어봤다impor..

🎨 Pair Plot(페어 플롯)이란?📌 여러 변수 간의 관계를 한눈에 확인할 수 있는 그래프!Pair Plot(페어 플롯)은 서로 다른 변수들 간의 관계를 비교할 수 있도록 여러 개의 산점도를 한 번에 그린 그래프보통 데이터에 포함된 모든 수치형 변수(숫자형 데이터)들의 조합을 한 번에 비교할 때 사용 🧐 Pair Plot이 왜 필요할까?데이터 분석을 할 때 두 변수 간의 관계를 알고 싶을 때예를 들면, • 키와 몸무게가 관계가 있을까? • 나이와 혈압이 연관이 있을까? • 공부 시간과 시험 점수는 어떤 관계일까? 이런 관계를 하나하나 산점도(Scatter Plot)로 그리면 너무 많아서 헷갈린다👉 그래서 Pair Plot을 사용하면 모든 변수 조합을 한 번에 비교할 수 있다 📊 Pair..
📌 히트맵(Heatmap)이란?히트맵(Heatmap)은 데이터를 색상으로 표현하여 쉽게 패턴을 파악할 수 있도록 도와주는 시각화 기법히트맵은 데이터 값이 클수록 진한 색상, 값이 작을수록 연한 색상을 사용하여 한눈에 데이터의 변화를 파악할 수 있다 🔥 히트맵의 핵심 개념1️⃣ 색상(Color)으로 데이터를 표현 • 값이 클수록 진한 색, 값이 작을수록 연한 색을 사용 • 예) 기온이 높은 곳을 빨간색, 낮은 곳을 파란색으로 표현 2️⃣ 표 형태의 데이터에 많이 사용 • 행(row)과 열(column)로 이루어진 2차원 데이터를 시각화 • 예) 성적표, 매출 분석, 상관 관계 분석 등에 사용 3️⃣ 패턴과 관계를 쉽게 파악 가능 • 색의 변화를 통해 어떤 값이 높은지, 낮은지 직관적으로 이해할 수 있..
✅ 수치형 데이터(Numerical Data) vs 범주형 데이터(Categorical Data)데이터 분석에서 수치형 데이터와 범주형 데이터를 구분하는 것은 매우 중요 ⭐️⭐️⭐️각각의 차이를 쉽게 정리했다 1. 수치형 데이터 (Numerical Data)📌 정의: • 숫자로 표현되는 데이터이며, 연산(더하기, 빼기, 평균 계산 등)이 가능함. 📌 특징: • 크기 비교(>, • 평균, 합, 표준편차 계산 가능 • 연속적이거나 이산적인 값 가짐 📌 예시: • 키(cm), 몸무게(kg), 나이(년), 가격(₩), 온도(℃), 점수 📌 수치형 데이터의 두 가지 유형:유형설명예시연속형 데이터 (Continuous Data)실수 값을 가지며, 무한한 값 존재 가능키(170.5cm), 체온(36.7℃)..