본문 바로가기

SK네트웍스 Family AI캠프 10기/단위 프로젝트

단위 프로젝트 4. LLM을 연동한 내외부 문서 기반 질의 응답 웹페이지 개발

0. Github

 

 

 

1. 프로젝트 일정

 

 

1-1. 프로젝트 회의 (2025. 05. 02 ~ 2025. 05. 04)

 

 

1-2. LLM Model Fine-Tuning (2025. 05. 04 - 2025. 05. 09)

 

  • 데이터 수집
    • 세상의 모든 와인 All that wine
      • 와인 테이스팅의 모든것
      • [중급 강의] 30분만에 끝나는 '와인 이제 좀 안다!' 클래스
      • [초급 강의] 30분만에 끝나는 와인생초보 탈출
      • 와인추천
      • 와인 지역별 비교
      • 와인 품종별 비교
      • 와인기초상식
    • 와푸밸 Wine Food Balance
      • [와인 추천]
      • [와인 상식, 와인 꿀팁]
      • [음식과 와인 조합]

 

  • 질문-답변 Dataset 생성
    • GPT-4o-mini

 

  • LLM Model Fine-Tuning
    • gemma3-4b

 

 

 

1-3. 페이지 구현 (2025. 05. 10 - 2025. 05. 12)

 

  • Django
    • Login / Register
    •  Chatbot
      • Fine-Tuning Model
      • RAG
    • Administrator

 

 

1-4. AWS CI/CD Pipeline 구현 (2025.05.10 - 2025. 05. 12)

 

  • AWS CI/CD
    • AWS ECR
    • AWS ECS
    • AWS CodePipeline

 

 

 

2. 프로젝트 회고

 

 

2-1. 담당 역할

 

  • 유튜브 영상 데이터 저장 및 데이터셋 생성
  • LLM Model Fine-Tuning 및 Hugging Face 업로드
  • AWS CI/CD Pipeline 구현

 

 

 

2-2. 사용 기술 스택

 

Python

  • 유튜브 자막 데이터 추출: yt-dlp
  • 질문-답변 데이터셋 생성: RAGAs
  • Hugging Face

 

AWS

  • AWS ECR
  • AWS ECS
  • AWS CodePipeline

 

 

2-3. 프로젝트 담당 업무

 

LLM Model 개발

  • 유튜브 자막 데이터 추출 및 전처리
  • 질문-답변 데이터셋 생성
  • LLM Model 학습 및 Fine-Tuning
  • GGUF 변환 및 Hugging Face 업로드

 

AWS CI/CD Pipeline

  • AWS CI/CD Pipeline 구현
    • 실패
  • AWS EC2 배포
    • 실패

 

README 작성

  • 프로젝트 개요
  • 프로젝트 실행 방법

 

 

2-4. 회고

 

이번에는 저번에 진행했던 프로젝트의 연장선 느낌이라 내가 맡은 부분에서는 큰 어려움이 없었다. 하지만 AWS CI/CD Pipeline 구현을 하려는데 먼저 내 개인의 GitHub Repository가 아니라서 Connection 권한이 없어서 할 수 없었다. 그 다음으로는 따로 Repository를 생성해서 여기에 Connection을 생성했다. 하지만 우리의 프로젝트에서 Docker Image와 Container를 생성하는 과정에서 모델을 다운로드 받게 되어 있었는데 용량이 너무 커서 저장공간이 부족하다고 해서 구현에 실패하였다. 이를 해결할 수 있는 방법으로는 EC2에 모델 전용 Container를 만들거나 S3를 이용해서 데이터를 받아오는 것이 있다는 걸 알게 되었다. 하지만 제한된 시간 동안의 프로젝트였기 때문에 이를 구현할 시간이 없어서 해보지는 못했다. 그래서 만약에 다음에 기회가 있다면 AWS CI/CD Pipeline 구현을 시도해보고 싶다. 아쉬움도 있었지만 그래도 할 수 있는 만큼의 노력은 했기에 만족스러운 프로젝트였다.