목록데이터분석가/데이터 TIL (21)
개발로그필름
✅ EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란?EDA(탐색적 데이터 분석, Exploratory Data Analysis)는 데이터를 깊이 이해하고, 특징과 패턴을 발견하기 위한 분석 과정쉽게 말하면, 데이터를 “처음 받았을 때 어떻게 생겼는지 파악하고, 어떤 관계가 있는지 살펴보는 과정” 📌 EDA가 왜 중요할까?1️⃣ 데이터의 기본적인 구조 파악데이터에 어떤 컬럼(변수)이 있는지 확인각 컬럼에 어떤 값들이 들어 있는지 살펴보기 2️⃣ 데이터의 품질 점검결측치(Missing values, NaN)나 이상치(Outliers)를 찾아내서 보완할 수 있음데이터가 깨끗하지 않다면, 잘못된 분석 결과가 나올 위험이 있음 3️⃣ 변수 간의 관계 분석숫자 데이터(예: 매출, ..
📢 데이터를 다룰 때, 연도(year), 월(month), 일(day) 정보가 따로 나뉘어 있는 경우가 많다이 데이터를 하나의 날짜 컬럼(datetime)으로 변환하는 방법을 포스팅 해보려고 한다 🏷 1. 문제 상황데이터를 다루다 보면, 연(year), 월(month), 일(day)이 각각 다른 컬럼으로 저장되어 있는 경우가 있다예를 들어, 호텔 예약 데이터에서 다음과 같은 컬럼을 볼 수 있다arrival_date_yeararrival_date_montharrival_date_day2016July12017August22018September3 📌 이제 목표는 이 세 개의 컬럼을 하나의 날짜 컬럼(arrival_date)으로 합쳐서 변환하는 것변환 후 원하는 결과는 다음과 같다arrival_date..
!pip install koreanize_matplotlib -q✔️ 일단 한글 설치 import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport koreanize_matplotlibimport warningswarnings.simplefilter('ignore')%config InlineBackend.figure_format = 'retina'✔️ 필요한거 import pd.set_option('display.max_columns', None)✔️ 데이터 확인할때 데이터 컬럼 ... 로 생략되지 않고 다 보이게 하기

📌 분산(Variance)이란?데이터가 평균을 기준으로 얼마나 퍼져 있는지(흩어져 있는지) 측정하는 값즉, 데이터가 얼마나 넓게 분포하는지를 나타내는 지표 🎯 왜 분산이 중요할까?데이터를 분석할 때, 단순히 평균만 본다면 데이터의 특징을 정확히 알기 어렵다예를 들어 데이터가 고르게 분포했을수도 있고 데이터가 한쪽에 몰려있을 수도 있다따라서 흩어진 정도를 수치로 표현한 것을 분산 이라고 한다 🎯 분산을 구하는 방법1️⃣ 평균 구하기먼저, 모든 데이터를 더해서 개수로 나눈 평균(Mean)을 구하기평균(𝜇) = (모든 값의 합) / (데이터 개수) 2️⃣ 각 값과 평균의 차이 계산하기각 데이터 값에서 평균을 뺀 후, 제곱을 해.왜 제곱을 하는가?👉 평균보다 크거나 작은 값이 있기 때문에, 그냥 더..

✅ plt.xscale('log') & plt.yscale('log')란?👉 로그 스케일(Logarithmic Scale)을 적용하는 코드👉 matplotlib에서 x축(plt.xscale())과 y축(plt.yscale())을 로그 스케일로 변환하는 역할 🔍 1️⃣ 로그 스케일이란?데이터의 크기 차이가 너무 클 때, 간격을 조정해서 시각적으로 균형 잡힌 그래프를 만들기 위한 기법.특히 조회수나 좋아요 수처럼 수치 범위가 넓은 데이터에서 효과적.일반적인 선형 스케일에서는 큰 값이 너무 넓게 퍼지고, 작은 값이 압축되어 보이지만, 로그 스케일을 사용하면 데이터의 패턴을 더 명확하게 볼 수 있음. 🔍 2️⃣ 예제 비교 (로그 스케일 vs 선형 스케일)📌 로그 스케일 적용 전 (기본 선형 스케일)..
데이터를 전처리 하는 과정에서 생긴 에러이다object 타입을 int형으로 바꾸는 과정에서 문제가 생겼는데내가 바꾸려는것이 예를 들어 '54,071,677' 였는데 이건 str로 인식되어 , 를 제거후 숫자로 변환해야하는 것이었다 정리하면, ❌ 문제 원인: 쉼표(,)가 포함된 문자열을 숫자로 변환하려고 시도함📌 이 오류는 Video views, Likes, Dislikes 컬럼의 값이 쉼표(,)가 포함된 문자열이기 때문➡️ 예를 들어 '54,071,677'은 숫자가 아니라 문자열(str)로 인식됨. ✅ 해결 방법: 쉼표(,) 제거 후 숫자로 변환쉼표(,)를 먼저 제거하고 int 또는 float으로 변환해야 한다하지만 난 int로 모두 바꾸고 싶기 때문에 astype(int)로 코드 작성# 쉼표(,..
📌 백분위수란?백분위수(percentile)는 데이터를 100등분한 값을 의미한다쉽게 말해, 전체 데이터를 낮은 값에서 높은 값까지 정렬한 후, 특정 값이 전체에서 몇 퍼센트 위치에 있는지를 나타내는 것 🎯 쉽게 이해하는 예시👉 예를 들어, 100명의 학생이 시험을 본 결과를 가지고 있다- 만약 내 점수가 백분위수 90이라면?-> 내 점수보다 낮은 학생이 전체의 90%라는 뜻. 즉, 상위 10%에 속한다는 의미- 만약 내 점수가 백분위수 50이라면?-> 내 점수보다 낮은 학생이 전체의 50%라는 뜻이야. 즉, 중간(중앙값, 50%)에 위치한다는 의미 📊 백분위수 계산 방법1️⃣ 데이터 정렬하기먼저 모든 데이터를 낮은 값부터 높은 값까지 정렬 2️⃣ 원하는 백분위수 찾기백분위수 P%에 해당하는 ..
ci=None은 신뢰구간(confidence interval, CI)을 비활성화하는 옵션즉, 막대 그래프(Bar Plot)에 신뢰구간을 표시하지 않도록 설정하는 것 1️⃣ 신뢰구간(CI, Confidence Interval)이란?- sns.barplot()을 사용할 때 기본적으로 각 막대 위에 오차 막대(Error Bar)가 추가- 이 오차 막대는 신뢰구간(CI, Confidence Interval)- 신뢰구간이란, 해당 평균값이 일정한 확률(보통 95%)로 실제 평균을 포함할 가능성이 있는 범위 📌 예를 들어, ci=95를 사용하면 → 95% 신뢰구간이 추가📌 ci=None을 사용하면 → 신뢰구간이 표시되지 않음 2️⃣ ci=None을 쓰는 이유기본적으로 Seaborn은 평균값을 계산할 때 신..