본문 바로가기

혼공학습단/혼자 공부하는 데이터 분석 with 파이썬

[혼공분석] 3주차. 데이터 정제하기

혼공분석 3주 차 학습

 
 

# 진도 기본 숙제 추가 숙제
3주차
(07. 14 ~ 07. 20)
Chapter 03 p.182 확인 문제 2번 p. 219 확인문제 5번

 
 

기본 숙제

 

혼자 공부하는 데이터 분석 with 파이썬 p. 150

 

  • 특정 열의 합 구하기
    • df['col1'].sum()
      • 'col1' Series를 선택하여 합을 계산한다.
    • df[['col1']].sum()
      • 'col1' 열만 존재하는 DataFrame에서 합을 계산한다.
    • df.loc[:, df.columns == 'col1'].sum()
      • df.columns == 'col1'은 [True, False, False] 형태의 불리언 배열을 만들기 때문에 첫 번째 열(col1)이 선택된다.
      • 따라서 첫 번째 열(col1)의 합을 계산한다.
    • df.loc[:, [False, False, True]].sum()
      • [False, False, True]을 통해 세 번째 열(col3)이 선택된다.
      • 따라서 세 번째 열(col3)의 합을 계산한다.

 

  • 특정 행 선택하기
    • df[2:3]
      • [] 연산자에 슬라이싱을 사용하면 행 단위로 지정한 범위의 행을 선택하며, 마지막 값은 포함되지 않는다.
      • 따라서 인덱스가 2인 행(세 번째 행)이 선택된다.
    • df[df['col3'] > 100]
      • 'col3' 열이 100보다 큰 행을 필터링한다.
    • df.loc[2:2]
      • loc 메서드는 인덱스 라벨 기반 인덱싱으로, 마지막 값도 포함된다.
      • 따라서 인덱스 라벨이 2인 행(세 번째 행)이 선택된다.
    • df.iloc[2:3]
      • iloc 메서드는 정수 위치 기반 인덱싱으로, 마지막 값은 포함되지 않는다.
      • 따라서 세 번째 위치의 행이 선택된다.


 

추가 숙제

 

혼자 공부하는 데이터 분석 with 파이썬 p. 150

 

  • 정규표현식
    • DataFrame.replace(regex=True)
      • 문자열을 정규표현식 패턴으로 바꿀 수 있다.
    • . : 임의의 문자 1개
    • * : 0개 이상 반복
    • \d : 숫자 1개 (0~9)
    • \D : 숫자가 아닌 문자 1개

 

  • DataFrame.fillna()
    • 누락된 값을 지정한 방식으로 채운다.
    • method='ffill'
      • 누락된 값 이전에 등장하는 유효한 값으로 현재 누락된 값을 채운다.
    • method='bfill'
      • 누락된 값 이후에 등장하는 유효한 값으로 현재 누락된 값을 채운다.
    • axis=0
      • 행(세로) 방향으로 누락된 값을 채운다.
    • axis=1
      • 열(가로) 방향으로 누락된 값을 채운다.

 


혼공분석 3주 차 회고

 

loc 메서드와 iloc 메서드에 대해서 다시 되짚어볼 수 있었다. 그 외에도 좀 헷갈리는 부분이 있었지만 이번 기회에 다시 되짚어볼 수 있어서 좋았다.