본문 바로가기

분류 전체보기

(134)
SELECT / FROM / LIMIT SELECT / FROM / LIMIT SELECT 무엇을(어떠한 데이터를) 가져올 것인지* : 모든 컬럼을 가져올 때 사용 DISTINCT중복된 행을 제거하고, 고유한 값만 가져올 때 사용 FROM 어디서(어떤 테이블에서) 가져올 것인지 LIMIT 얼마나(몇 개) 가져올 것인지 HackerRank Select All SELECT *FROM city; Weather Observation Station 1 SELECT city, stateFROM station;
[혼공분석] 2주차. 데이터 수집하기 혼공분석 2주 차 학습 #진도기본 숙제추가 숙제2주차(07. 07 ~ 07. 13)Chapter 02p.150 확인 문제 1번p. 137 ~ 138 도서 페이지 수 출력 기본 숙제 loc 메서드인덱스와 열 이름 사용df.loc[::2, 'col1':'col2'] → 첫 번째 행과 세 번째 행만 선택 BeautifulSoup - tagtag.find_all('table')find_all(): 지정한 태그를 모두 찾아 리스트로 반환tag('table')tag.find_all('table')과 같은 의미find_all() 메서드는 생략 가능동작은 하지만 가독성과 유지보수 측면에서 사용하지 않는 것이 좋음tag.find('table')find(): 조건에 맞는 첫 번째 태그 하나만 반환tag.find(i..
[혼공분석] 1주차. 데이터 분석을 시작하며 혼공분석 1주 차 학습 #진도기본 숙제추가 숙제1주차(06. 30 ~ 07. 06)Chapter 01p.81 확인 문제 4번p. 71 ~ 73 남산 도서관 데이터- Google Colab에서 DataFrame으로 출력 기본 숙제 header 매개변수csv 파일에서 열 이름을 어디서 가져올지 지정한다.기본적으로 첫 번째 행을 열 이름으로 사용한다.names 매개변수열 이름 리스트를 직접 지정한다.지정할 경우, header 매개변수는 무시하며, 파일의 첫 번째 행도 데이터로 간주한다.encoding 매개변수csv 파일을 읽을 때 사용할 인코딩 형식을 지정한다.기본적으로 UTF-8 인코딩 형식을 사용한다. dtype 매개변수각 열의 데이터 타입을 직접 지정한다.기본적으로 Pandas가 자동으로 데이터 타..
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 6개월차 회고 6개월 차 학습 웹페이지 구현 (2025. 06. 02 - 2025. 06. 20) 마이페이지의 좋아요 목록 조회 부분을 개발 완료하고, 사소한 디테일 부분을 수정해서 나름 만족스럽게 진행됐다고 생각한다. 다만 해당 페이지에서 내가 좋아요 한 키워드를 추출해서 보여준다거나 하는 등의 기능도 있었으면 좋았을 것 같다고 생각한다. 추천 시스템 (2025. 05. 13 - 2025. 06. 27) 추천 시스템은 Hybrid로 공통 추천과 개인화 추천 분기로 나눠서 작동된다. 사용자의 로그 데이터가 존재하는지에 따라 있다면 개인화 추천, 없다면 공통 추천으로 나뉜다. 먼저 공통 추천의 경우에는 기존에 LLM을 통해 리뷰 데이터를 다시 분석하여 점수를 계산한 방식을 사용하기로 했다. 개인화 추천에서는 Li..
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 26주차 회고 26주 차 진행 : 최종 프로젝트 8주 차 프로젝트 마무리 프로젝트 마지막 산출물들을 작성하고, 최종 발표자료를 제작하였다. 그 과정에서 LightFM 모델 학습이 주기적으로 잘 진행되고 있는지 확인하였는데 오류가 발생하여 모델이 학습되고 있지 않았다. Amazon의 EventBridge 서비스를 통해서 모델 학습을 주기적으로 관리하고 있는데 빼먹은 설정이 있어서 제대로 진행되지 않았다. 모델 학습과 해당 로그가 CloudWatch에 저장되기 위해서는 기본 설정 외에도 다음과 같은 설정을 진행해야 한다. 먼저, ExecutionRole에 'logs:CreateLogGroup' 정책을 추가해야 한다. 이를 통해서 CloudWatch에 로그를 출력할 수 있다. 그다음으로는 EventBridge에 Laun..
최종 프로젝트. LLM 활용 대화형 상품 추천 시스템 0. Github 1. 프로젝트 일정 1-1. 프로젝트 기획 (2025. 05. 13 ~ 2025. 05. 23) 프로젝트 주제 선정AI 기반 대화형 맞춤 영양제 추천 챗봇 서비스 (TOP; Trend of Pill)담당 역할 분배추천 시스템 개발 담당 1-2. 데이터 수집 및 전처리 (2025. 05. 26 - 2025. 05. 30) 데이터 수집Amazon 영양제 상품 데이터 및 리뷰 데이터한국인 영양소 섭취기준영양소 효능 데이터건강 관련 키워드 태그 데이터 1-3. 추천 시스템 (2025. 05. 13 - 2025. 06. 27) Hybrid 추천 시스템공통 추천LLM 리뷰 감성 분석 추천개인화 추천LightFM 추천 모델( + TF-IDF 코사인 유사도) 1-4. 웹페이지 구현 (202..
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 25주차 회고 25주 차 진행 : 최종 프로젝트 7주 차 추천 시스템 LightFM 모델 구현에 완료했다. 모델은 최종적으로 다음과 같이 만들게 되었다.로그가 5개 이상 쌓인 사용자 대상학습 / 테스트 비율 → 0.8 : 0.2AWS S3에 모델 업로드 및 업데이트AUC 점수가 0.6 이상일 경우에만 업데이트Docker 환경에서 실행 → AWS ECR에 구축 & AWS ECS, Amazon EventBridge로 주기적 업데이트또한, Hybrid 추천 시스템은 다음과 같이 구현되었다.user_id, product_ids를 input으로 받음user_id를 통해 사용자의 로그 존재 여부 확인최신 로그가 최소 1개 있을 경우, 개인화 추천 시스템그 외에는 비개인화 추천 시스템개인화 추천 시스템 : LightFM + T..
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 24주차 회고 24주 차 진행 : 최종 프로젝트 6주 차 웹페이지 구현 마이페이지 수정을 최종적으로 완료했고, 팀원분이 AWS 배포를 마치셨다. 이제 주위에 뿌려서 사용자 이력 데이터를 얻으면 된다. 개인화 추천 시스템 SASRec 모델을 구현하고 있었는데, 사용자와 로그 데이터가 많이 모이지 않을 것 같다고 판단하여 LightFM 모델로 변경하기로 했다. 팀원분이 LightFM을 구현하고 있었는데 그 코드를 참고해서 공부하며 구현하면 될 것 같다. 24주 차 회고 Keep 이번에 빅데이터분석기사 실기 시험을 보고 왔다. 그런데 프로젝트를 진행하면서 공부를 거의 못해서 이번에 통과하지 못할 것 같다. 빅데이터분석기사는 1년에 2번밖에 시험이 없어서 다음에 붙는다고 해도 하반기 공채 지원서에 쓰지 못해서 아쉽..