목록데이터분석가 (34)
개발로그필름

from google.colab import filesuploaded = files.upload()✅ 구글 코랩에서 이 코드를 실행 시키면 내 컴퓨터 안의 파일들을 선택하라는 출력이 나온다 ➡️ 파일 선택해서 한꺼번에 여러 파일들을 업로드 하면 끝! 나는 8개 파일을 올렸는데 시간이 좀 걸리긴 하지만 일일히 파일 path 설정해서 하나하나 가져오는것보다는 편하다 :)

1. 데이터 구조 및 기본 정보 확인df.head(), df.info(), df.describe()로 데이터 전체 구조 파악컬럼별 데이터 타입, 결측치 여부, 기본 통계 확인 2. 결측치 및 이상치 확인df.isnull().sum()으로 결측치 확인Boxplot 또는 quantile로 이상치 분포 확인필요 시 간단한 결측치 처리 (제거 또는 평균/중앙값 대체) 3. 기초 통계 및 분포 확인수치형 변수: 히스토그램, 평균/중앙값/표준편차범주형 변수: value_counts()로 분포 확인카테고리 수가 너무 많거나 너무 적은 경우 파악 4. 변수 간 관계 탐색 (간단한 상관관계)corr()로 수치형 변수 간 상관관계 확인scatter plot 또는 pairplot 등으로 시각적으로 파악 ..

📌 구글 코랩(Google Colab)에서 구글 드라이브에 있는 파일을 연결해서 사용하는 기본 코드from google.colab import drivedrive.mount('/content/drive')✔️ 이 코드를 실행하면 처음에 인증 URL이 뜨고, 구글 계정 선택 후 인증 코드를 붙여넣으면 연결 완료 📁 구글 드라이브 안의 파일 경로 접근 방법import pandas as pdfile_path = '/content/drive/MyDrive/폴더명/파일명.csv'df = pd.read_csv(file_path)df.head() 이 뒤로 하고 싶은 EDA 하면 끄읏! 😊
온라인 서비스나 제품을 운영할 때, 어떤 변화가 더 좋은 결과를 가져올지 확신이 없다면?이럴 때 “A/B 테스트”를 활용하면 데이터를 기반으로 최적의 선택을 할 수 있다 📌 A/B 테스트란?A/B 테스트는 두 가지(또는 그 이상)의 버전을 비교하여, 어떤 버전이 더 좋은 성과를 내는지 검증하는 실험 방법보통 웹사이트, 앱, 광고, 이메일 마케팅, 제품 디자인, UX/UI 최적화 등에서 많이 사용된다 ✔ A 그룹: 기존 버전 (기준 버전, Control Group)✔ B 그룹: 변경된 버전 (새로운 디자인, 광고 문구 등 실험할 대상, Variant Group)✔ 실험 목표: 전환율(구매, 클릭률, 가입률 등)이 더 높은 버전을 찾는 것 예제 📌: • 버튼 색상 변경 테스트: “구매하기” 버튼을 파란..
Apache Airflow: 여러 데이터 소스를 활용한 데이터 분석 자동화 📌 Apache Airflow란?Apache Airflow는 워크플로우(Workflow) 자동화 및 오케스트레이션 도구로, 데이터 수집, 변환(ETL), 분석 및 배포 과정을 효율적으로 관리할 수 있도록 도와준다.Airflow는 DAG(Directed Acyclic Graph, 방향 비순환 그래프)라는 구조를 사용하여 각 데이터 처리 단계를 정의하고 실행 순서를 설정할 수 있도록 설계되었다. 💡 쉽게 말해?✔ 여러 데이터 소스에서 데이터를 자동으로 수집하고, 변환하고, 분석할 수 있도록 도와주는 도구!✔ 복잡한 데이터 파이프라인을 자동화하고, 일정에 맞춰 실행하며, 오류가 발생하면 다시 시도할 수 있도록 설계됨 📌 Apac..
✅ EDA(Exploratory Data Analysis, 탐색적 데이터 분석)란?EDA(탐색적 데이터 분석, Exploratory Data Analysis)는 데이터를 깊이 이해하고, 특징과 패턴을 발견하기 위한 분석 과정쉽게 말하면, 데이터를 “처음 받았을 때 어떻게 생겼는지 파악하고, 어떤 관계가 있는지 살펴보는 과정” 📌 EDA가 왜 중요할까?1️⃣ 데이터의 기본적인 구조 파악데이터에 어떤 컬럼(변수)이 있는지 확인각 컬럼에 어떤 값들이 들어 있는지 살펴보기 2️⃣ 데이터의 품질 점검결측치(Missing values, NaN)나 이상치(Outliers)를 찾아내서 보완할 수 있음데이터가 깨끗하지 않다면, 잘못된 분석 결과가 나올 위험이 있음 3️⃣ 변수 간의 관계 분석숫자 데이터(예: 매출, ..
📢 데이터를 다룰 때, 연도(year), 월(month), 일(day) 정보가 따로 나뉘어 있는 경우가 많다이 데이터를 하나의 날짜 컬럼(datetime)으로 변환하는 방법을 포스팅 해보려고 한다 🏷 1. 문제 상황데이터를 다루다 보면, 연(year), 월(month), 일(day)이 각각 다른 컬럼으로 저장되어 있는 경우가 있다예를 들어, 호텔 예약 데이터에서 다음과 같은 컬럼을 볼 수 있다arrival_date_yeararrival_date_montharrival_date_day2016July12017August22018September3 📌 이제 목표는 이 세 개의 컬럼을 하나의 날짜 컬럼(arrival_date)으로 합쳐서 변환하는 것변환 후 원하는 결과는 다음과 같다arrival_date..
!pip install koreanize_matplotlib -q✔️ 일단 한글 설치 import pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltimport koreanize_matplotlibimport warningswarnings.simplefilter('ignore')%config InlineBackend.figure_format = 'retina'✔️ 필요한거 import pd.set_option('display.max_columns', None)✔️ 데이터 확인할때 데이터 컬럼 ... 로 생략되지 않고 다 보이게 하기 encoding='euc-kr'✔️ csv, excel 등의 파일 읽을 때 한글 깨짐 해결 (더 자세한 정보..