본문 바로가기

혼공학습단/혼자 공부하는 데이터 분석 with 파이썬

[혼공분석] 4주차. 데이터 요약하기

혼공분석 4주 차 학습

 
 

# 진도 기본 숙제 추가 숙제
4주차
(07. 21 ~ 07. 27)
Chapter 04 p.279 확인 문제 5번 [평균, 중앙값, 최솟값, 최댓값,
분위수, 분산, 표준편차, 최빈값]
개념 정리

 
 

기본 숙제

 

혼자 공부하는 데이터 분석 with 파이썬 p. 279

 

  • 히스토그램
    • 수치형 데이터를 일정한 구간으로 나누어 각 구간에 속한 데이터 개수를 막대그래프 형태로 그린 것
    • hist() 함수 사용

 

  • 상자 수염 그림
    • 데이터의 최솟값, 1사분위수(Q1), 중앙값(Q2), 3 사분위수(Q3), 최댓값 이렇게 다섯 개의 통계량을 사용해 데이터를 요약하는 그래프
      • 사분위수를 계산하여 1사분위수와 3 사분위수 지점을 밑면과 윗면으로 하는 직사각형을 그린다.
      • 중앙값에 해당하는 지점에 수평선을 긋는다.
      • 사각형의 밑면과 윗면에서 사각형 높이의 1.5배만큼 떨어진 거리 안에서 가장 멀리 있는 샘플가지 수직선을 긋는다.
      • 이 수직선 밖에서 최솟값과 최댓값까지 데이터를 점으로 표시한다.
    • boxplot() 함수 사용

 

 

추가 숙제

 

평균

  • 모든 숫자 값을 더해 개수로 나눈 값

$$ mean = \frac {x_1 + x_2 + \cdots + x_n} {n} $$

$$ mean = \frac {\sum_{i=1}^{n} {x_i}} {n} $$

  • mean() 메서드 사용

 

중앙값

  • 데이터를 순서대로 정렬했을 때 중앙에 위치한 값
    • 데이터 개수가 홀수인 경우 : 정확히 가운데 값
    • 데이터 개수가 짝수인 경우 : 가운데 두 값의 평균
  • median() 메서드 사용
    • 중복된 값을 제거하여 중앙값을 구하고 싶을 경우, drop_duplicates() 메서드를 사용한 후에 median() 메서드를 사용한다.

 

최솟값

  • 데이터에서 가장 작은 값
  • min() 메서드 사용

 

최댓값

  • 데이터에서 가장 큰 값
  • max() 메서드 사용

 

분위수

  • 데이터를 순서대로 정렬했을 때 이를 균등한 간격으로 나누는 기준점
  • 사분위수
    • 순서대로 정렬된 데이터를 네 구간으로 나눈다.
      • 25% : 제1사분위수 (Q1)
      • 50% : 제2사분위수 (Q2, 중앙값)
      • 75% : 제3사분위수 (Q3)
  • quantile() 메서드 사용
    • interpolation 매개변수에서 분위수를 계산하는 방법을 지정한다.
      • linear (기본값) : 양쪽 분위수 값에 비례하여 계산한다.
      • midpoint : 두 수의 중앙값
      • nearest : 가장 가까운 값
      • lower : 아래쪽 값
      • higher : 위쪽 값

 

분산

  • 평균으로부터 데이터가 얼마나 퍼져있는지를 나타낸다.
    • 분산이 작다 : 데이터가 평균 근처에 모여 있다.
    • 분산이 크다 : 데이터가 넓게 퍼져 있다.

$$ s^2 = \frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n} $$

$$ \bar{x} = \frac {\sum_{i=1}^{n} {x_i}} {n} $$

  • var() 메서드 사용
    • Pandas의 분산은 다음과 같은 식으로 계산한다.

$$ s^2 = \frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n-1} $$

 

표준편차

  • 분산에 제곱근을 취한 값

$$ s = \sqrt {\frac {\sum_{i=1}^{n} {(x_i - \bar {x})^2}} {n}} $$

  • std() 메서드 사용

 

최빈값

  • 데이터에서 가장 많이 등장하는 값
  • mode() 메서드 사용

 


혼공분석 4주 차 회고



이번주는 데이터를 요약하고 특성을 파악하는 부분이라서 어렵지는 않았다. 다만 이걸 응용하게 되면 어려울 것 같다는 생각이 들었다. 일단 4주 차를 끝내고 한 주 방학 동안 다른 공부도 진행할 생각이다.