본문 바로가기

분류 전체보기

(134)
COUNT / SUM / AVG / MIN / MAX / GROUP BY COUNT / SUM / AVG / MIN / MAX / GROUP BY COUNT 행의 개수를 구할 때 사용NULL 값 제외COUNT(*) : 모든 행의 개수NULL 값 포함 SUM 합계를 구할 때 사용 AVG 평균을 구할 때 사용NULL 값 제외NULL 값 포함 : SUM / COUNT(*) 방식 사용 MIN 최솟값을 구할 때 사용 MAX 최댓값을 구할 때 사용 GROUP BY 특정 컬럼을 기준으로 그룹화할 싶을 때 사용GROUP BY문에 사용한 컬럼을 SELECT문에도 작성하는 것이 좋음주로 집계 함수(COUNT, SUM, AVG 등)와 함께 사용 HAVING그룹화된 결과에 조건을 적용할 때 사용WHERE : 그룹화 이전 조건HAVING : 그룹화 이후 조건 HackerRank Rev..
[혼공분석] 혼공학습단 14기 활동 회고 혼자서 책 한 권을 끝까지 꾸준히 공부하는 일은 쉽지 않다고 생각한다. 그런데 우연히 들어간 메일함에서 혼공학습단 모집 소식을 접했고, 이 기회에 데이터 분석을 정리하며 책을 완독할 수 있겠다는 생각으로 참여하게 되었다. 매일, 매주 학습하는 과정이 귀찮고 힘들 때도 있었지만, 이왕 시작했으니 끝까지 완주하자는 마음으로 버틸 수 있었다. 무엇보다 함께 공부하는 사람들이 있다는 점이 큰 동기부여가 되었다. 혼공학습단이 좋았던 점은 많은 시간을 투자하지 않아도 된다는 것이다. 일주일에 한 챕터씩만 공부하면 되고, 숙제도 책을 따라 코드를 작성하다 보면 자연스럽게 해결되었다. 덕분에 빠르게 진도를 나가지는 않지만, 오히려 꼼꼼하게 학습할 수 있었다고 생각한다. 혼공학습단의 6주가 이렇게 마무리되었다. 함께했던..
[혼공분석] 6주차. 복잡한 데이터 표현하기 혼공분석 6주 차 학습 #진도기본 숙제추가 숙제6주차(08. 11 ~ 08. 17)Chapter 06p.344 그래프 출력p.356 ~ 359 그래프 그리는 과정 정리 기본 숙제 객체지향 API 방식명시적으로 피겨 객체와 서브플롯 객체를 만들고 이 객체의 메서드를 사용하여 그래프를 그린다.복잡한 그래프를 그리는 경우에는 객체지향 방식을 사용하는 것이 좋다.하나의 피겨에 여러 개의 서브플롯을 추가하는 경우 산점도 그리기linewidths 매개변수마커 테두리 선의 두께를 결정한다.기본값 : 1.5edgecolors 매개변수마커 테두리의 색을 결정한다.기본값 : 'face'alpha 매개변수마커의 투명도를 결정한다.s 매개변수마커의 크기를 지정한다.기본값 : 6c 매개변수산점도의 색을 지정한다.cmap ..
[혼공분석] 5주차. 데이터 시각화하기 혼공분석 5주 차 학습 #진도기본 숙제추가 숙제5주차(08. 04 ~ 08. 10)Chapter 05p.315 그래프 출력p.316 그래프 출력 기본 숙제 현재 그래프는 레이블이 오른쪽으로 치우쳐진 상태이며, 글씨가 다소 커서 겹치는 부분이 있다.plt.bar(count_by_subject.index, count_by_subject.values)plt.title('Books by subject')plt.xlabel('subject')plt.ylabel('number of books')for idx, val in count_by_subject.items(): plt.annotate(val, (idx, val), xytext=(0, 2), textcoords='offset points')plt.s..
[혼공분석] 4주차. 데이터 요약하기 혼공분석 4주 차 학습 #진도기본 숙제추가 숙제4주차(07. 21 ~ 07. 27)Chapter 04p.279 확인 문제 5번[평균, 중앙값, 최솟값, 최댓값,분위수, 분산, 표준편차, 최빈값]개념 정리 기본 숙제 히스토그램수치형 데이터를 일정한 구간으로 나누어 각 구간에 속한 데이터 개수를 막대그래프 형태로 그린 것hist() 함수 사용 상자 수염 그림데이터의 최솟값, 1사분위수(Q1), 중앙값(Q2), 3 사분위수(Q3), 최댓값 이렇게 다섯 개의 통계량을 사용해 데이터를 요약하는 그래프사분위수를 계산하여 1사분위수와 3 사분위수 지점을 밑면과 윗면으로 하는 직사각형을 그린다.중앙값에 해당하는 지점에 수평선을 긋는다.사각형의 밑면과 윗면에서 사각형 높이의 1.5배만큼 떨어진 거리 안에서 가장 멀..
[혼공분석] 3주차. 데이터 정제하기 혼공분석 3주 차 학습 #진도기본 숙제추가 숙제3주차(07. 14 ~ 07. 20)Chapter 03p.182 확인 문제 2번p. 219 확인문제 5번 기본 숙제 특정 열의 합 구하기df['col1'].sum()'col1' Series를 선택하여 합을 계산한다.df[['col1']].sum()'col1' 열만 존재하는 DataFrame에서 합을 계산한다.df.loc[:, df.columns == 'col1'].sum()df.columns == 'col1'은 [True, False, False] 형태의 불리언 배열을 만들기 때문에 첫 번째 열(col1)이 선택된다.따라서 첫 번째 열(col1)의 합을 계산한다.df.loc[:, [False, False, True]].sum()[False, False,..
ORDER BY ORDER BY ORDER BY 어떤 기준으로 정렬해서 데이터를 가져올 것인지ASC : 오름차순DESC : 내림차순 Function 문자열 자르기 LEFT(컬럼명 또는 문자열, n)문자열의 왼쪽부터 n글자만 가져오고 싶을 때 사용 RIGHT(컬럼명 또는 문자열, n)문자열의 오른쪽부터 n글자만 가져오고 싶을 때 사용 SUBSTRING(컬럼명 또는 문자열, 시작위치, 길이)문자열의 지정한 위치부터 특정 길이만큼 가져오고 싶을 때 사용 소수점 처리 CEIL(컬럼명 또는 숫자)소수점을 올림 처리하고 싶을 때 사용 FLOOR(컬럼명 또는 숫자)소수점을 내림 처리하고 싶을 때 사용 ROUND(컬럼명 또는 숫자, 소수 자릿수)소수점을 반올림 처리하고 싶을 때 사용 HackerRank Employee Na..
WHERE WHERE WHERE 어떠한 조건을 만족하는 데이터만 가져올 것인지 비교연산자특정 컬럼이 특정 값을 가지는 데이터만 불러오기 위해 사용= : 같다 : 같지 않다>= : 크거나 같다> : 크다 논리연산자여러 조건을 동시에 사용할 때 사용AND : 모두 참일 때OR : 하나라도 참일 때 LIKE패턴을 검색할 때 사용% : 0개 이상의 문자_ : 정확히 1개의 문자\ : 와일드카드 이스케이프 문자값이 정확히 일치할 경우에는 LIKE보다는 =를 사용하는 것이 더 빠름 IN지정한 여러 값 중 하나라도 포함될 때 사용 BETWEEN범위에 포함되는 값을 찾을 때 사용양 끝 값이 포함됨 IS NULL값이 없는 데이터를 찾을 때 사용 HackerRank Revising the Select Query I SELECT ..