목록데이터분석 (40)
개발로그필름

데이터 분석 프로젝트를 할 때마다 매번 헷갈리던 Docker와 MySQL, Jupyter 환경 연동 과정을 완전 세세하게 정리했다 준비 사항Docker & Docker Compose 설치Python + Jupyter 환경 준비 (Anaconda, VSCode 등)기본적인 CLI 명령어 사용 가능 Step 1. 프로젝트 폴더 만들기*터미널mkdir my_projectcd my_project Step 2. docker-compose.yml 작성*프로젝트 작업 폴더에서 파일 추가version: "3.9"services: mysql_db: image: mysql:8.0 container_name: mysql_container ports: - "3306:3306" enviro..

스타트업의 성장 분석이나 서비스 개선 전략을 세울 때 자주 사용하는 모델 AARRR이란?AARRR은 다섯 단계로 이루어진 고객 여정(Customer Journey)Acquisition (획득)Activation (활성화)Retention (유지)Referral (추천)Revenue (수익) 각 단계는 사용자가 서비스에 처음 들어와서, 계속 쓰고, 다른 사람에게 소개하고, 결국 돈까지 쓰게 되는 전체 흐름을 보여준다 1. Acquisition (획득: 어떻게 사용자가 들어오는가?)사용자가 어떻게 우리 서비스에 처음 방문하게 되었는지 보는 단계광고, SNS, 블로그, 검색 등 유입 경로 분석이 핵심 예: 어떤 채널(인스타그램, 유튜브, 블로그 등)에서 우리 서비스에 많이 들어오는지 분석 2. Act..

ex) 점수 분포50, 60, 74, 80, 81, 82, 92, 100* 이미 오름차순 정렬되어있다 가정 사분위수란?전체 데이터를 4등분해서 그 경계가 되는 특정 위치의 숫자를 구하는 것Q1 (1사분위수): 아래에서 25% 지점Q3 (3사분위수): 아래에서 75% 지점 1사분위수 위치 구하기데이터 개수: 8개(8 - 1) × 0.25 = 7 × 0.25 = 1.75n-1 을 하는 이유: 데이터 값 사이 간격을 기준으로 하기 때문즉 1사분위수는 1과 2 사이의 75%에 위치해 있다 (1.75) 1사분위수 계산하기위 데이터 기준1번 인덱스 값 = 602번 인덱스 값 = 7460과 74 사이에서 75%쯤 간 숫자니까 아래와 같이 계산Q1 = 60 + (74 - 60) × 0.75 = 60 + 14 ×..

Python만으로도 웬만한 데이터 분석은 다 가능하지만, SQL을 요구하는 이유는 “현업 데이터 분석 환경”이 다르기 때문 ✅ 왜 Python으로 다 할 수 있는데도 SQL을 요구할까? 1. 실제 데이터는 대부분 데이터베이스(DB)에 저장되어 있음기업에서는 고객, 주문, 클릭, 로그 등 거의 모든 데이터가 RDB (MySQL, PostgreSQL 등) 에 저장됨분석가는 데이터 분석 이전에, 먼저 데이터를 꺼내오는 역할이 필요 → SQL 필요🎯 SQL = 데이터 분석의 입구👉 데이터를 추출해야 Python으로 분석 가능 2. Python보다 SQL이 더 빠르고 가벼움수백만~수천만 건 데이터에서 요약(집계, 그룹화)을 빠르게 수행Python보다 메모리 효율적이고 안정적예:SELECT user_id,..

유저가 최종 목표(전환, 구매, 구독 등)에 도달하기까지의 단계별 행동 흐름을 추적하는 분석 방법 ✅ 퍼널 분석이란?사용자가 어떤 경로로 전환까지 도달했는지 단계별로 분석해, 이탈률이 높은 구간을 찾아내는 기법 예시: 교육 플랫폼에서의 퍼널방문무료 강의 수강회원가입첫 결제정기 구독👉 각 단계마다 몇 명이 남았는지, 몇 %가 이탈했는지를 분석 ✅ 퍼널 분석의 핵심 목적이탈률 파악어디에서 유저가 많이 빠지는지개선 기회 포착UX, 콘텐츠, 마케팅의 문제 구간 찾기전환율 최적화전체 전환율을 높이기 위해 단계별 개선성과 측정실험(A/B 테스트 등) 이후 퍼널 변화 확인 ✅ 퍼널 분석 구성 요소목표 액션 (Conversion Goal)최종 도달해야 하는 행동 (예: 구매, 구독)단계별 액션 정의사용자..

사용자 또는 고객을 공통된 특성을 기준으로 그룹화(cohort) 하여, 시간에 따라 그들의 행동 변화를 추적하는 분석 기법 ✅ 코호트 분석이란?코호트(cohort)란?비슷한 시점에 유입되었거나 공통된 행동을 한 사용자 집단(ex: 같은 달에 앱을 설치한 유저, 첫 결제를 한 유저 등) 코호트 분석은 이 사용자 집단이 시간에 따라 어떤 행동을 보이는지를 분석해, 리텐션(retention), 이탈률, 충성도, 전환율 등을 파악하는 데 사용 ✅ 왜 코호트 분석을 할까?목적설명리텐션 분석가입한 사용자들이 얼마나 오래 남아있는지 추적이탈 지점 파악어떤 시점에 가장 많이 이탈하는지 확인전략 평가신규 기능, 마케팅 캠페인 등의 효과를 시점별로 확인세그먼트 타겟팅성과가 좋은 코호트를 분석해 유사 유저 공략 ✅ 코호..

from google.colab import filesuploaded = files.upload()✅ 구글 코랩에서 이 코드를 실행 시키면 내 컴퓨터 안의 파일들을 선택하라는 출력이 나온다 ➡️ 파일 선택해서 한꺼번에 여러 파일들을 업로드 하면 끝! 나는 8개 파일을 올렸는데 시간이 좀 걸리긴 하지만 일일히 파일 path 설정해서 하나하나 가져오는것보다는 편하다 :)

1. 데이터 구조 및 기본 정보 확인df.head(), df.info(), df.describe()로 데이터 전체 구조 파악컬럼별 데이터 타입, 결측치 여부, 기본 통계 확인 2. 결측치 및 이상치 확인df.isnull().sum()으로 결측치 확인Boxplot 또는 quantile로 이상치 분포 확인필요 시 간단한 결측치 처리 (제거 또는 평균/중앙값 대체) 3. 기초 통계 및 분포 확인수치형 변수: 히스토그램, 평균/중앙값/표준편차범주형 변수: value_counts()로 분포 확인카테고리 수가 너무 많거나 너무 적은 경우 파악 4. 변수 간 관계 탐색 (간단한 상관관계)corr()로 수치형 변수 간 상관관계 확인scatter plot 또는 pairplot 등으로 시각적으로 파악 ..