혼공분석 1주 차 학습
# | 진도 | 기본 숙제 | 추가 숙제 |
1주차 (06. 30 ~ 07. 06) |
Chapter 01 | p.81 확인 문제 4번 | p. 71 ~ 73 남산 도서관 데이터 - Google Colab에서 DataFrame으로 출력 |
기본 숙제
- header 매개변수
- csv 파일에서 열 이름을 어디서 가져올지 지정한다.
- 기본적으로 첫 번째 행을 열 이름으로 사용한다.
- names 매개변수
- 열 이름 리스트를 직접 지정한다.
- 지정할 경우, header 매개변수는 무시하며, 파일의 첫 번째 행도 데이터로 간주한다.
- 열 이름 리스트를 직접 지정한다.
- encoding 매개변수
- csv 파일을 읽을 때 사용할 인코딩 형식을 지정한다.
- 기본적으로 UTF-8 인코딩 형식을 사용한다.
- dtype 매개변수
- 각 열의 데이터 타입을 직접 지정한다.
- 기본적으로 Pandas가 자동으로 데이터 타입을 추정한다.
추가 숙제
- 데이터 : 도서관 정보나루 - 서울특별시교육청남산도서관 장서 대출목록 (2025년 06월)
- 데이터 불러오기
import pandas as pd
df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR', low_memory=False)
기본적으로 Pandas의 read_csv() 함수의 인코딩 형식의 기본 값은 UTF-8이다. 사용하려는 파일은 인코딩 형식이 'EUC-KR'이기 때문에, EUC-KR 인코딩 파일을 오류 없이 출력하기 위해서는 인코딩 형식을 지정해야 한다.
import chardet
with open('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', mode='rb') as f:
d = f.readline()
print(chardet.detect(d))
# {'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}
기본적으로 Pandas의 read_csv() 함수는 csv 파일을 조금씩 나누어 읽는다. 이때, 자동으로 파악한 데이터 타입이 달라지면 경고가 발생한다. low_memory 매개변수를 활용하면 파일을 한 번에 읽을 수 있다.
import pandas as pd
df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR')
# /tmp/ipython-input-6-3729147544.py:3: DtypeWarning: Columns (5,9) have mixed types. Specify dtype option on import or set low_memory=False.
# df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR')
- 데이터 출력하기
df.head()
혼공분석 1주 차 회고
1주 차는 간단히 데이터 분석이 무엇인지에 대해서 알아보는 시간을 가졌다. 이미 데이터 분석에 대해서 어느 정도는 알고는 있지만, 이번 기회를 통해서 다시 정리해 보면서 탄탄히 기초를 다질 수 있었으면 좋겠다.
'혼공학습단 > 혼자 공부하는 데이터 분석 with 파이썬' 카테고리의 다른 글
[혼공분석] 6주차. 복잡한 데이터 표현하기 (2) | 2025.08.17 |
---|---|
[혼공분석] 5주차. 데이터 시각화하기 (1) | 2025.08.10 |
[혼공분석] 4주차. 데이터 요약하기 (4) | 2025.07.27 |
[혼공분석] 3주차. 데이터 정제하기 (0) | 2025.07.20 |
[혼공분석] 2주차. 데이터 수집하기 (2) | 2025.07.13 |