목록데이터분석가/데이터 TIL (24)
개발로그필름

사용자 또는 고객을 공통된 특성을 기준으로 그룹화(cohort) 하여, 시간에 따라 그들의 행동 변화를 추적하는 분석 기법 ✅ 코호트 분석이란?코호트(cohort)란?비슷한 시점에 유입되었거나 공통된 행동을 한 사용자 집단(ex: 같은 달에 앱을 설치한 유저, 첫 결제를 한 유저 등) 코호트 분석은 이 사용자 집단이 시간에 따라 어떤 행동을 보이는지를 분석해, 리텐션(retention), 이탈률, 충성도, 전환율 등을 파악하는 데 사용 ✅ 왜 코호트 분석을 할까?목적설명리텐션 분석가입한 사용자들이 얼마나 오래 남아있는지 추적이탈 지점 파악어떤 시점에 가장 많이 이탈하는지 확인전략 평가신규 기능, 마케팅 캠페인 등의 효과를 시점별로 확인세그먼트 타겟팅성과가 좋은 코호트를 분석해 유사 유저 공략 ✅ 코호..
온라인 서비스나 제품을 운영할 때, 어떤 변화가 더 좋은 결과를 가져올지 확신이 없다면?이럴 때 “A/B 테스트”를 활용하면 데이터를 기반으로 최적의 선택을 할 수 있다 📌 A/B 테스트란?A/B 테스트는 두 가지(또는 그 이상)의 버전을 비교하여, 어떤 버전이 더 좋은 성과를 내는지 검증하는 실험 방법보통 웹사이트, 앱, 광고, 이메일 마케팅, 제품 디자인, UX/UI 최적화 등에서 많이 사용된다 ✔ A 그룹: 기존 버전 (기준 버전, Control Group)✔ B 그룹: 변경된 버전 (새로운 디자인, 광고 문구 등 실험할 대상, Variant Group)✔ 실험 목표: 전환율(구매, 클릭률, 가입률 등)이 더 높은 버전을 찾는 것 예제 📌: • 버튼 색상 변경 테스트: “구매하기” 버튼을 파란..
Apache Airflow: 여러 데이터 소스를 활용한 데이터 분석 자동화 📌 Apache Airflow란?Apache Airflow는 워크플로우(Workflow) 자동화 및 오케스트레이션 도구로, 데이터 수집, 변환(ETL), 분석 및 배포 과정을 효율적으로 관리할 수 있도록 도와준다.Airflow는 DAG(Directed Acyclic Graph, 방향 비순환 그래프)라는 구조를 사용하여 각 데이터 처리 단계를 정의하고 실행 순서를 설정할 수 있도록 설계되었다. 💡 쉽게 말해?✔ 여러 데이터 소스에서 데이터를 자동으로 수집하고, 변환하고, 분석할 수 있도록 도와주는 도구!✔ 복잡한 데이터 파이프라인을 자동화하고, 일정에 맞춰 실행하며, 오류가 발생하면 다시 시도할 수 있도록 설계됨 📌 Apac..
✅ EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란?EDA(탐색적 데이터 분석, Exploratory Data Analysis)는 데이터를 깊이 이해하고, 특징과 패턴을 발견하기 위한 분석 과정쉽게 말하면, 데이터를 “처음 받았을 때 어떻게 생겼는지 파악하고, 어떤 관계가 있는지 살펴보는 과정” 📌 EDA가 왜 중요할까?1️⃣ 데이터의 기본적인 구조 파악데이터에 어떤 컬럼(변수)이 있는지 확인각 컬럼에 어떤 값들이 들어 있는지 살펴보기 2️⃣ 데이터의 품질 점검결측치(Missing values, NaN)나 이상치(Outliers)를 찾아내서 보완할 수 있음데이터가 깨끗하지 않다면, 잘못된 분석 결과가 나올 위험이 있음 3️⃣ 변수 간의 관계 분석숫자 데이터(예: 매출, ..
📢 데이터를 다룰 때, 연도(year), 월(month), 일(day) 정보가 따로 나뉘어 있는 경우가 많다이 데이터를 하나의 날짜 컬럼(datetime)으로 변환하는 방법을 포스팅 해보려고 한다 🏷 1. 문제 상황데이터를 다루다 보면, 연(year), 월(month), 일(day)이 각각 다른 컬럼으로 저장되어 있는 경우가 있다예를 들어, 호텔 예약 데이터에서 다음과 같은 컬럼을 볼 수 있다arrival_date_yeararrival_date_montharrival_date_day2016July12017August22018September3 📌 이제 목표는 이 세 개의 컬럼을 하나의 날짜 컬럼(arrival_date)으로 합쳐서 변환하는 것변환 후 원하는 결과는 다음과 같다arrival_date..
!pip install koreanize_matplotlib -q✔️ 일단 한글 설치 import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport koreanize_matplotlibimport warningswarnings.simplefilter('ignore')%config InlineBackend.figure_format = 'retina'✔️ 필요한거 import pd.set_option('display.max_columns', None)✔️ 데이터 확인할때 데이터 컬럼 ... 로 생략되지 않고 다 보이게 하기 encoding='euc-kr'✔️ csv, excel 등의 파일 읽을 때 한글 깨짐 해결 (더 자세한 정보..

📌 분산(Variance)이란?데이터가 평균을 기준으로 얼마나 퍼져 있는지(흩어져 있는지) 측정하는 값즉, 데이터가 얼마나 넓게 분포하는지를 나타내는 지표 🎯 왜 분산이 중요할까?데이터를 분석할 때, 단순히 평균만 본다면 데이터의 특징을 정확히 알기 어렵다예를 들어 데이터가 고르게 분포했을수도 있고 데이터가 한쪽에 몰려있을 수도 있다따라서 흩어진 정도를 수치로 표현한 것을 분산 이라고 한다 🎯 분산을 구하는 방법1️⃣ 평균 구하기먼저, 모든 데이터를 더해서 개수로 나눈 평균(Mean)을 구하기평균(𝜇) = (모든 값의 합) / (데이터 개수) 2️⃣ 각 값과 평균의 차이 계산하기각 데이터 값에서 평균을 뺀 후, 제곱을 해.왜 제곱을 하는가?👉 평균보다 크거나 작은 값이 있기 때문에, 그냥 더..

✅ plt.xscale('log') & plt.yscale('log')란?👉 로그 스케일(Logarithmic Scale)을 적용하는 코드👉 matplotlib에서 x축(plt.xscale())과 y축(plt.yscale())을 로그 스케일로 변환하는 역할 🔍 1️⃣ 로그 스케일이란?데이터의 크기 차이가 너무 클 때, 간격을 조정해서 시각적으로 균형 잡힌 그래프를 만들기 위한 기법.특히 조회수나 좋아요 수처럼 수치 범위가 넓은 데이터에서 효과적.일반적인 선형 스케일에서는 큰 값이 너무 넓게 퍼지고, 작은 값이 압축되어 보이지만, 로그 스케일을 사용하면 데이터의 패턴을 더 명확하게 볼 수 있음. 🔍 2️⃣ 예제 비교 (로그 스케일 vs 선형 스케일)📌 로그 스케일 적용 전 (기본 선형 스케일)..