0. Github
1. 프로젝트 일정
1-1. 프로젝트 회의 (2025. 04. 09)
1-2. LLM Model Fine-Tuning (2025. 04. 09 - 2025. 04. 13)
- 질문-답변 Dataset 생성
- LLM Model Fine-Tuning
- GGUF 변환 및 Hugging Face 업로드
1-3. 페이지 구현 (2025. 04. 14 - 2025. 04. 15)
- Streamlit
- Chatbot
- Fine-Tuning Model
- RAG
- Base Model vs Fine-Tuning Model 비교
- Chatbot
2. 프로젝트 회고
2-1. 담당 역할
- 유튜브 영상 데이터 저장 및 데이터셋 생성
- LLM Model Fine-Tuning 및 Hugging Face 업로드
- Base Model vs Fine-Tuning Model 비교 페이지 구현
2-2. 사용 기술 스택
Python
- 개인
- 유튜브 자막 데이터 추출: yt-dlp
- 질문-답변 데이터셋 생성: RAGAs
- Hugging Face
- 공통
- 페이지 구현: Streamlit
2-3. 프로젝트 담당 업무
LLM Model 개발
- 유튜브 자막 데이터 추출 및 전처리
- 질문-답변 데이터셋 생성
- LLM Model 학습 및 Fine-Tuning
- GGUF 변환 및 Hugging Face 업로드
페이지 구현
- Base Model vs Fine-Tuning Model 비교 페이지 구현
README 작성
- LLM Model GGUF 파일 다운로드 및 Local 설치
2-4. 회고
이번 단위가 나에게 좀 와닿지 않는다고 느껴서 단위 프로젝트가 다소 부담이 됐었다. 그래도 이끌어주시는 팀원분들이 계셔서 무사히 프로젝트를 마칠 수 있었다. 이번에 LLM Model Fine-Tuning의 역할을 맡았는데, 이미 가지고 있는 코드를 살짝 수정하면 되는 거라 이래도 괜찮을까 싶기는 했다. 여기서 문제는 OpenAI 모델로 데이터셋을 생성해야 하는데 우리가 가지고 있는 데이터의 양이 너무 많아서 중간에 자꾸 API 제한으로 인해 중단되는 문제가 생겼다. 이를 해결하기 위해 데이터를 100개 단위로 나눠서 데이터셋을 생성하는 요청을 보냈고, 주말 동안 완료할 수 있었다. 그리고 Fine-Tuning Model의 성능을 평가하기 위한 비교 페이지를 구현하였다. 이외에는 다른 팀원분들이 너무 열심히 해주셔서 버스 타는 느낌도 들긴 했다. 그래도 무사히 마칠 수 있어서 다행이었고, 다음 프로젝트에는 더 열심히 임해야겠다고 생각했다.
'SK네트웍스 Family AI캠프 10기 > 단위 프로젝트' 카테고리의 다른 글
| 단위 프로젝트 4. LLM을 연동한 내외부 문서 기반 질의 응답 웹페이지 개발 (0) | 2025.05.13 |
|---|---|
| 단위 프로젝트 2. 가입 고객 이탈 예측 (0) | 2025.03.05 |
| 단위 프로젝트 1. 전국 자동차 등록 현황 및 기업 FAQ 조회 시스템 (0) | 2025.01.24 |