분류 전체보기 (134) 썸네일형 리스트형 24일차. Imbalanced Data & Cross Validation 더보기 24일 차 회고. 이제 곧 토이 프로젝트 팀에서 나가게 될 텐데 내가 무엇을 해야 할지 무엇에 집중해야 할지 정리해봐야 할 것 같다. 1. Imbalanced Data 1-1. Imbalanced Data 불균형 데이터는 목표 변수(Target)가 범주형 데이터일 경우, 범주별로 관측치의 개수, 비율의 차이가 많이 나는 데이터를 말한다. 불균형 데이터를 이용한 모델링 문제점소수 집단(Minority Class)의 관측치 개수가 적을 경우, 소수 집단의 모집단 분포를 샘플링한 소수의 관측치가 소수 집단을 대표하기에는 부족하기 때문에 분류 모델이 overfitting에 빠질 위험이 있다.정상(Majority Class) : 비정상(Minority Class)의 비율이 99 : 1이라고 할 .. 23일차. Unsupervised Learning 더보기 23일 차 회고. 다른 팀 팀장님께도 토이 프로젝트에서 빠지겠다고 말을 해서 1차 애자일까지만 참여하는 걸로 정해졌다. 이제 주말부터는 개인 공부에 시간을 더 쏟을 예정이다. 1. Unsupervised Learning - Dimensionality Reduction 1-1. 필수 라이브러리 임포트 !pip install --upgrade joblib==1.1.0!pip install --upgrade scikit-learn==1.1.3!pip install mglearnimport logginglogging.getLogger('matplotlib.font_manager').setLevel(logging.ERROR)import mglearnfrom sklearn.model_selectio.. 22일차. Supervised Learning - Classification & Ensemble & HPO 더보기 22일 차 회고. 어제부터 토이 프로젝트에 대해서 계속 생각을 했는데 빠지는 것이 좋을 것 같다는 결론을 내리게 되었다. 팀원분들 모두 좋으셨지만 이대로는 배우는 것도 개발하는 것도 이도저도 아니게 될 것 같아서 이번 1차 애자일까지만 참여하기로 했다. 수업도 따라가기 힘들어지고 자격증 준비와 코딩테스트 공부도 해야 하기 때문에 이게 제일 좋은 선택인 것 같다. 1. Supervised Learning - Classification 1-1. Multiclass Classification 가능도(Likehood)확률(Probability)확률 분포가 고정된 상태에서, 관측되는 사건이 변화되는 경우가능도(Likelihood)관측되는 사건이 고정된 상태에서, 확률 분포가 변화되는 경우 최대가능.. 21일차. Supervised Learning - Regression & Classification 더보기 21일 차 회고. 토이 프로젝트에 경진대회에 자격증까지 해야 할 일이 많아서 너무 힘든 날이었다. 1. Supervised Learning - Regression 1-1. Regression 평가 지표 Linear Regressionfrom sklearn.datasets import load_diabetesdiabetes = load_diabetes()data = diabetes.datatarget = diabetes.target from sklearn.model_selection import train_test_splitSEED = 42x_train, x_valid , y_train, y_valid = train_test_split(data, target, random_state=SEE.. [플레이데이터 SK네트웍스 Family AI 캠프 10기] 5주차 회고 5주 차 학습 Pandas 1. groupbygroupby() 함수를 통해 데이터를 그룹별로 분할할 수 있다.groupby() 함수는 nunique가 10 미만일 경우에 사용하는 것이 좋다.통계 함수를 사용하여 그룹별 통계 데이터를 확인할 수 있다.mean(): 평균값median(): 중간값min(): 최솟값max(): 최댓값 2. 2개 이상의 DataFrame 조작merge()inner join: 교집합left join: left DataFrame을 기준으로 Joinouter join: 합집합concat()column(axis=1)outer join:합집합inner join: 교집합row(axis=0)outer join: 합집합 Data Visualization 1. Data Visualizatio.. 20일차. Feature Extraction & Data Encoding 더보기 20일 차 회고. 머신러닝 부분은 진도도 빠르고 봐야 할 코드가 늘어나서 따가라기 조금 힘든 것 같다. 주말 동안 토이 프로젝트를 진행하고 남는 시간 동안 이번 주에 배운 내용들을 쭉 복습해야겠다. 예제 One Hot Encoding부터 수정 1. Feature Extraction 1-1. 데이터타입 X_tr.info()# # RangeIndex: 712 entries, 0 to 711# Data columns (total 10 columns):# # Column Non-Null Count Dtype # --- ------ -------------- ----- # 0 survived 712 non-null int64 # 1 pclass 712.. 19일차. Machine Learning & Data Preprocessing 더보기 19일 차 회고. 오늘은 배운 것을 다 정리하지 못했다. 토이 프로젝트를 진행하느라 오늘 해야 할 자격증 공부도 다 하지 못해서 주말 동안 블로그를 정리하고 자격증 공부에 조금 더 시간을 써야 할 것 같다. Numpy 심화부터 수정 1. Machine Learning 1-1. 인공지능(AI; Artificial Intelligence) 인공지능은 인간의 지능으로 할 수 있는 사고, 학습, 자기 개발 등 컴퓨터가 대체할 수 있도록 하는 방법을 연구하는 분야이다. 1-2. 머신러닝(ML; Machine Learning) 머신러닝은 데이터 학습 기반의 인공지능 분야로, 기계가 데이터를 이용해 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다. 머신러닝 시스템 워크플로우수집머신러닝 학습.. 18일차. Data Visualization(Seaborn) & Data Cleaning 더보기 18일 차 회고. ADsP 시험 날짜가 2월 22일인데, SQLD 시험 날짜가 3월 8일이라서 시간이 엄청 촉박할 것 같다. 그런데 여기에 이제 토이 프로젝트 개발이 본격적으로 시작되어서 시간을 잘 활용해야 할 것 같다. 1. Data Visualization - Seaborn !pip install koreanize-matplotlibimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport koreanize_matplotlib import seaborn as snssns.set_theme(style="darkgrid") 1-1. Relational plots 두 변수의 관계를 볼 때 사용한다. scatterpl.. 이전 1 ··· 11 12 13 14 15 16 17 다음