혼공분석 4주 차 학습
# | 진도 | 기본 숙제 | 추가 숙제 |
4주차 (07. 21 ~ 07. 27) |
Chapter 04 | p.279 확인 문제 5번 | [평균, 중앙값, 최솟값, 최댓값, 분위수, 분산, 표준편차, 최빈값] 개념 정리 |
기본 숙제
- 히스토그램
- 수치형 데이터를 일정한 구간으로 나누어 각 구간에 속한 데이터 개수를 막대그래프 형태로 그린 것
- hist() 함수 사용
- 상자 수염 그림
- 데이터의 최솟값, 1사분위수(Q1), 중앙값(Q2), 3 사분위수(Q3), 최댓값 이렇게 다섯 개의 통계량을 사용해 데이터를 요약하는 그래프
- 사분위수를 계산하여 1사분위수와 3 사분위수 지점을 밑면과 윗면으로 하는 직사각형을 그린다.
- 중앙값에 해당하는 지점에 수평선을 긋는다.
- 사각형의 밑면과 윗면에서 사각형 높이의 1.5배만큼 떨어진 거리 안에서 가장 멀리 있는 샘플가지 수직선을 긋는다.
- 이 수직선 밖에서 최솟값과 최댓값까지 데이터를 점으로 표시한다.
- boxplot() 함수 사용
- 데이터의 최솟값, 1사분위수(Q1), 중앙값(Q2), 3 사분위수(Q3), 최댓값 이렇게 다섯 개의 통계량을 사용해 데이터를 요약하는 그래프
추가 숙제
평균
- 모든 숫자 값을 더해 개수로 나눈 값
$$ mean = \frac {x_1 + x_2 + \cdots + x_n} {n} $$
$$ mean = \frac {\sum_{i=1}^{n} {x_i}} {n} $$
- mean() 메서드 사용
중앙값
- 데이터를 순서대로 정렬했을 때 중앙에 위치한 값
- 데이터 개수가 홀수인 경우 : 정확히 가운데 값
- 데이터 개수가 짝수인 경우 : 가운데 두 값의 평균
- median() 메서드 사용
- 중복된 값을 제거하여 중앙값을 구하고 싶을 경우, drop_duplicates() 메서드를 사용한 후에 median() 메서드를 사용한다.
최솟값
- 데이터에서 가장 작은 값
- min() 메서드 사용
최댓값
- 데이터에서 가장 큰 값
- max() 메서드 사용
분위수
- 데이터를 순서대로 정렬했을 때 이를 균등한 간격으로 나누는 기준점
- 사분위수
- 순서대로 정렬된 데이터를 네 구간으로 나눈다.
- 25% : 제1사분위수 (Q1)
- 50% : 제2사분위수 (Q2, 중앙값)
- 75% : 제3사분위수 (Q3)
- 순서대로 정렬된 데이터를 네 구간으로 나눈다.
- quantile() 메서드 사용
- interpolation 매개변수에서 분위수를 계산하는 방법을 지정한다.
- linear (기본값) : 양쪽 분위수 값에 비례하여 계산한다.
- midpoint : 두 수의 중앙값
- nearest : 가장 가까운 값
- lower : 아래쪽 값
- higher : 위쪽 값
- interpolation 매개변수에서 분위수를 계산하는 방법을 지정한다.
분산
- 평균으로부터 데이터가 얼마나 퍼져있는지를 나타낸다.
- 분산이 작다 : 데이터가 평균 근처에 모여 있다.
- 분산이 크다 : 데이터가 넓게 퍼져 있다.
$$ s^2 = \frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n} $$
$$ \bar{x} = \frac {\sum_{i=1}^{n} {x_i}} {n} $$
- var() 메서드 사용
- Pandas의 분산은 다음과 같은 식으로 계산한다.
$$ s^2 = \frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n-1} $$
표준편차
- 분산에 제곱근을 취한 값
$$ s = \sqrt {\frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n}} $$
- std() 메서드 사용
최빈값
- 데이터에서 가장 많이 등장하는 값
- mode() 메서드 사용
혼공분석 4주 차 회고
이번주는 데이터를 요약하고 특성을 파악하는 부분이라서 어렵지는 않았다. 다만 이걸 응용하게 되면 어려울 것 같다는 생각이 들었다. 일단 4주 차를 끝내고 한 주 방학 동안 다른 공부도 진행할 생각이다.
'혼공학습단 > 혼자 공부하는 데이터 분석 with 파이썬' 카테고리의 다른 글
[혼공분석] 6주차. 복잡한 데이터 표현하기 (2) | 2025.08.17 |
---|---|
[혼공분석] 5주차. 데이터 시각화하기 (1) | 2025.08.10 |
[혼공분석] 3주차. 데이터 정제하기 (0) | 2025.07.20 |
[혼공분석] 2주차. 데이터 수집하기 (2) | 2025.07.13 |
[혼공분석] 1주차. 데이터 분석을 시작하며 (2) | 2025.07.06 |