목록데이터분석가/데이터 TIL (23)
개발로그필름
온라인 서비스나 제품을 운영할 때, 어떤 변화가 더 좋은 결과를 가져올지 확신이 없다면?이럴 때 “A/B 테스트”를 활용하면 데이터를 기반으로 최적의 선택을 할 수 있다 📌 A/B 테스트란?A/B 테스트는 두 가지(또는 그 이상)의 버전을 비교하여, 어떤 버전이 더 좋은 성과를 내는지 검증하는 실험 방법보통 웹사이트, 앱, 광고, 이메일 마케팅, 제품 디자인, UX/UI 최적화 등에서 많이 사용된다 ✔ A 그룹: 기존 버전 (기준 버전, Control Group)✔ B 그룹: 변경된 버전 (새로운 디자인, 광고 문구 등 실험할 대상, Variant Group)✔ 실험 목표: 전환율(구매, 클릭률, 가입률 등)이 더 높은 버전을 찾는 것 예제 📌: • 버튼 색상 변경 테스트: “구매하기” 버튼을 파란..
Apache Airflow: 여러 데이터 소스를 활용한 데이터 분석 자동화 📌 Apache Airflow란?Apache Airflow는 워크플로우(Workflow) 자동화 및 오케스트레이션 도구로, 데이터 수집, 변환(ETL), 분석 및 배포 과정을 효율적으로 관리할 수 있도록 도와준다.Airflow는 DAG(Directed Acyclic Graph, 방향 비순환 그래프)라는 구조를 사용하여 각 데이터 처리 단계를 정의하고 실행 순서를 설정할 수 있도록 설계되었다. 💡 쉽게 말해?✔ 여러 데이터 소스에서 데이터를 자동으로 수집하고, 변환하고, 분석할 수 있도록 도와주는 도구!✔ 복잡한 데이터 파이프라인을 자동화하고, 일정에 맞춰 실행하며, 오류가 발생하면 다시 시도할 수 있도록 설계됨 📌 Apac..
✅ EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란?EDA(탐색적 데이터 분석, Exploratory Data Analysis)는 데이터를 깊이 이해하고, 특징과 패턴을 발견하기 위한 분석 과정쉽게 말하면, 데이터를 “처음 받았을 때 어떻게 생겼는지 파악하고, 어떤 관계가 있는지 살펴보는 과정” 📌 EDA가 왜 중요할까?1️⃣ 데이터의 기본적인 구조 파악데이터에 어떤 컬럼(변수)이 있는지 확인각 컬럼에 어떤 값들이 들어 있는지 살펴보기 2️⃣ 데이터의 품질 점검결측치(Missing values, NaN)나 이상치(Outliers)를 찾아내서 보완할 수 있음데이터가 깨끗하지 않다면, 잘못된 분석 결과가 나올 위험이 있음 3️⃣ 변수 간의 관계 분석숫자 데이터(예: 매출, ..
📢 데이터를 다룰 때, 연도(year), 월(month), 일(day) 정보가 따로 나뉘어 있는 경우가 많다이 데이터를 하나의 날짜 컬럼(datetime)으로 변환하는 방법을 포스팅 해보려고 한다 🏷 1. 문제 상황데이터를 다루다 보면, 연(year), 월(month), 일(day)이 각각 다른 컬럼으로 저장되어 있는 경우가 있다예를 들어, 호텔 예약 데이터에서 다음과 같은 컬럼을 볼 수 있다arrival_date_yeararrival_date_montharrival_date_day2016July12017August22018September3 📌 이제 목표는 이 세 개의 컬럼을 하나의 날짜 컬럼(arrival_date)으로 합쳐서 변환하는 것변환 후 원하는 결과는 다음과 같다arrival_date..
!pip install koreanize_matplotlib -q✔️ 일단 한글 설치 import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport koreanize_matplotlibimport warningswarnings.simplefilter('ignore')%config InlineBackend.figure_format = 'retina'✔️ 필요한거 import pd.set_option('display.max_columns', None)✔️ 데이터 확인할때 데이터 컬럼 ... 로 생략되지 않고 다 보이게 하기 encoding='euc-kr'✔️ csv, excel 등의 파일 읽을 때 한글 깨짐 해결 (더 자세한 정보..

📌 분산(Variance)이란?데이터가 평균을 기준으로 얼마나 퍼져 있는지(흩어져 있는지) 측정하는 값즉, 데이터가 얼마나 넓게 분포하는지를 나타내는 지표 🎯 왜 분산이 중요할까?데이터를 분석할 때, 단순히 평균만 본다면 데이터의 특징을 정확히 알기 어렵다예를 들어 데이터가 고르게 분포했을수도 있고 데이터가 한쪽에 몰려있을 수도 있다따라서 흩어진 정도를 수치로 표현한 것을 분산 이라고 한다 🎯 분산을 구하는 방법1️⃣ 평균 구하기먼저, 모든 데이터를 더해서 개수로 나눈 평균(Mean)을 구하기평균(𝜇) = (모든 값의 합) / (데이터 개수) 2️⃣ 각 값과 평균의 차이 계산하기각 데이터 값에서 평균을 뺀 후, 제곱을 해.왜 제곱을 하는가?👉 평균보다 크거나 작은 값이 있기 때문에, 그냥 더..

✅ plt.xscale('log') & plt.yscale('log')란?👉 로그 스케일(Logarithmic Scale)을 적용하는 코드👉 matplotlib에서 x축(plt.xscale())과 y축(plt.yscale())을 로그 스케일로 변환하는 역할 🔍 1️⃣ 로그 스케일이란?데이터의 크기 차이가 너무 클 때, 간격을 조정해서 시각적으로 균형 잡힌 그래프를 만들기 위한 기법.특히 조회수나 좋아요 수처럼 수치 범위가 넓은 데이터에서 효과적.일반적인 선형 스케일에서는 큰 값이 너무 넓게 퍼지고, 작은 값이 압축되어 보이지만, 로그 스케일을 사용하면 데이터의 패턴을 더 명확하게 볼 수 있음. 🔍 2️⃣ 예제 비교 (로그 스케일 vs 선형 스케일)📌 로그 스케일 적용 전 (기본 선형 스케일)..
데이터를 전처리 하는 과정에서 생긴 에러이다object 타입을 int형으로 바꾸는 과정에서 문제가 생겼는데내가 바꾸려는것이 예를 들어 '54,071,677' 였는데 이건 str로 인식되어 , 를 제거후 숫자로 변환해야하는 것이었다 정리하면, ❌ 문제 원인: 쉼표(,)가 포함된 문자열을 숫자로 변환하려고 시도함📌 이 오류는 Video views, Likes, Dislikes 컬럼의 값이 쉼표(,)가 포함된 문자열이기 때문➡️ 예를 들어 '54,071,677'은 숫자가 아니라 문자열(str)로 인식됨. ✅ 해결 방법: 쉼표(,) 제거 후 숫자로 변환쉼표(,)를 먼저 제거하고 int 또는 float으로 변환해야 한다하지만 난 int로 모두 바꾸고 싶기 때문에 astype(int)로 코드 작성# 쉼표(,..