[혼공분석] 1주차. 데이터 분석을 시작하며

혼공분석 1주 차 학습

#	진도	기본 숙제	추가 숙제
1주차 (06. 30 ~ 07. 06)	Chapter 01	p.81 확인 문제 4번	p. 71 ~ 73 남산 도서관 데이터 - Google Colab에서 DataFrame으로 출력

기본 숙제

header 매개변수
- csv 파일에서 열 이름을 어디서 가져올지 지정한다.
- 기본적으로 첫 번째 행을 열 이름으로 사용한다.
names 매개변수
- 열 이름 리스트를 직접 지정한다.
  - 지정할 경우, header 매개변수는 무시하며, 파일의 첫 번째 행도 데이터로 간주한다.
encoding 매개변수
- csv 파일을 읽을 때 사용할 인코딩 형식을 지정한다.
- 기본적으로 UTF-8 인코딩 형식을 사용한다.
dtype 매개변수
- 각 열의 데이터 타입을 직접 지정한다.
- 기본적으로 Pandas가 자동으로 데이터 타입을 추정한다.

추가 숙제

데이터 : 도서관 정보나루 - 서울특별시교육청남산도서관 장서 대출목록 (2025년 06월)

데이터 불러오기

import pandas as pd

df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR', low_memory=False)

기본적으로 Pandas의 read_csv() 함수의 인코딩 형식의 기본 값은 UTF-8이다. 사용하려는 파일은 인코딩 형식이 'EUC-KR'이기 때문에, EUC-KR 인코딩 파일을 오류 없이 출력하기 위해서는 인코딩 형식을 지정해야 한다.

import chardet
with open('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', mode='rb') as f:
    d = f.readline()
print(chardet.detect(d))

# {'encoding': 'EUC-KR', 'confidence': 0.99, 'language': 'Korean'}

기본적으로 Pandas의 read_csv() 함수는 csv 파일을 조금씩 나누어 읽는다. 이때, 자동으로 파악한 데이터 타입이 달라지면 경고가 발생한다. low_memory 매개변수를 활용하면 파일을 한 번에 읽을 수 있다.

import pandas as pd

df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR')

# /tmp/ipython-input-6-3729147544.py:3: DtypeWarning: Columns (5,9) have mixed types. Specify dtype option on import or set low_memory=False.
#   df = pd.read_csv('서울특별시교육청남산도서관 장서 대출목록 (2025년 06월).csv', encoding='EUC-KR')

데이터 출력하기

df.head()

혼공분석 1주 차 회고

1주 차는 간단히 데이터 분석이 무엇인지에 대해서 알아보는 시간을 가졌다. 이미 데이터 분석에 대해서 어느 정도는 알고는 있지만, 이번 기회를 통해서 다시 정리해 보면서 탄탄히 기초를 다질 수 있었으면 좋겠다.

'[한빛미디어] 혼공학습단 > 혼자 공부하는 데이터 분석 with 파이썬' 카테고리의 다른 글

[혼공분석] 6주차. 복잡한 데이터 표현하기 (2)	2025.08.17
[혼공분석] 5주차. 데이터 시각화하기 (1)	2025.08.10
[혼공분석] 4주차. 데이터 요약하기 (4)	2025.07.27
[혼공분석] 3주차. 데이터 정제하기 (0)	2025.07.20
[혼공분석] 2주차. 데이터 수집하기 (2)	2025.07.13

혼공분석 1주 차 학습

기본 숙제

추가 숙제

혼공분석 1주 차 회고

'[한빛미디어] 혼공학습단 > 혼자 공부하는 데이터 분석 with 파이썬' 카테고리의 다른 글

티스토리툴바