[플레이데이터 SK네트웍스 Family AI 캠프 10기] 3개월차 회고

3개월 차 학습

자연어 데이터 준비

NLP

자연어 처리(NLP; Natural Language Processing)
- NLU(Natural Language Understanding)
- NLG(Natural Language Generation)
텍스트 전처리(Text Preprocessing)
- 정제(Cleaning)
  - 소문자로 변경
  - 출현 횟수가 적은 단어 제거
  - 노이즈 제거
- 추출(Stemming)
  - 어간(Stem)
  - 표제어(Lemmatization)
- 불용어(Stopword)
- 토큰화(Tokenization
  - 형태소 분석
  - 어휘집(Vocabulary)
- Embedding
  - Embedding
  - Sorting
  - Encoding
- Padding

자연어 딥러닝

CNN

주로 이미지 처리에 사용되는 신경망
Convolution과 Pooling 연산을 통해 공간적 특징 추출
여러 계층을 거치면서 점진적으로 추상적인 특징 학습
이미지 분류, 객체 탐지, 영상 처리, 자율주행 등

RNN

순차적 데이터(시계열, 자연어 등) 처리에 적합한 신경망
이전 상태(Hidden State)를 다음 상태로 전달하여 순서 정보 유지
긴 시퀀스를 다룰 때 기울기 소실(Vanishing Gradient) 문제 발생
자연어 처리(NLP), 시계열 데이터 예측, 음성 인식 등

LSTM

RNN의 한계를 보완한 모델
Cell State와 Gate(Input, Forget, Output) 구조를 도입하여 장기 의존성(Long-Term Dependency) 문제 해결
장기간의 시퀀스 데이터를 효과적으로 학습
기계 번역, 챗봇, 음악 생성, 주가 예측 등

GRU

LSTM과 유사한 구조를 가진 RNN의 변형 모델
Gate(Reset, Update) 개수를 줄여 연산량을 낮추고 학습 속도를 높임
LSTM과 비교하면 비슷한 성능을 내면서도 더 단순하고 가벼운 모델
자연어 처리(NLP), 시계열 데이터 예측, 음성 인식 등

Seq2Seq

입력 시퀀스를 받아 다른 형태의 출력 시퀀스로 변환하는 모델 구조
Encoder & Decoder
- Encoder: 입력 시퀀스를 고정된 길이의 벡터(컨텍스트 벡터)로 변환
- Decoder: 컨텍스트 벡터를 기반으로 원하는 출력 시퀀스 생성
RNN, LSTM, GRU와 결합하여 구현이 가능하지만, 긴 문장을 처리할 때 정보 손실 발생
- Attention 기법 필요
기계 번역, 챗봇, 요약 등

Transformer

Seq2Seq의 한계를 보완한 모델
Self-Attention 메커니즘을 활용하여 병렬 연산 가능
긴 문장도 효율적으로 학습 가능
병렬 처리가 가능하여 학습 속도가 빠름
문맥을 잘 반영하여 번역, 요약, 문장 생성에서 높은 성능을 보임
Multi-Head Self-Attention & Positional Encoding & Feed Forward Network
자연어 처리(NLP), 기계 번역, 요약, 이미지 생성 등

자연어-이미지 멀티모달

OCR

이미지나 문서에서 텍스트를 추출하는 기술
OCR 동작 과정
- 이미지 전처리(Image Preprocessing)
- 텍스트 영역 검출(Text Detection)
- 문자 인식(Text Recognition)
- 후처리(Post Processing)
CRNN(Convolutional Recurrent Neural Network)
- CRNN 구조
  - Convolutional Layers
  - Recurrent Layers
  - Transcription Layers

Image2Text

이미지를 입력받아 설명(캡션)을 생성하느 모델
Image2Text 구성 요소
- 이미지 분석(Feature Extraction)
- 텍스트 생성(Text Generation)
- Attention Mechanism

GAN

생성 모델
- 가짜 데이터를 실제 같은 데이터처럼 생성
GAN 구성 요소
- Generator
  - 가짜 데이터 생성
- Discriminator
  - 데이터가 진짜인지 가짜인지 판별
학습 과정에서 두 네트워크가 경쟁하면서 점점 더 실제와 유사한 데이터 생성
CGAN(Conditional GAN)
- 기본 GAN을 확장하여, 조건부 정보를 추가하는 모델
DCGAN(Deep Convolutional GAN)
- GAN의 Generator와 Discriminator에 CNN 구조를 도입하여, 이미지 생성에 더 적합하도록 개선된 모델
InfoGAN(Information Maximizing GAN)
- 기존 GAN에 조건부 정보를 추가하여, 이미지 생성의 다양성과 해석력을 높이는 모델

LLM

LLM(Large Language Model)

딥러닝 알고리즘과 통계 모델링을 활용하여 자연어 처리(NLP) 작업 수행
대규모 언어 데이터를 사전에 학습하여 문장 구조, 문법, 의미 등을 이해하고 생성
LLaMA, Claude, SciSpace

Transformer

Model
- ALBERT(Encoder Model), GPT(Decoder Model), BART(Encoder-Decoder Model)
Pipeline
- Tokenization
- Model
  - 특징 추출(Feature Extraction)
  - FillMask
  - 개체명 인식(NER; Named Entity Recognition)
  - 질의응답(Question Answering)
  - 감정 분석(Sentiment Analysis)
  - 요약(Summarization)
  - 텍스트 생성(Text Generation)
  - 번역(Translation)
  - 제로샷 분류(Zero-Shot Classification)
- Post Processing
Trainer
- Trainer
  - NLP 모델 학습
  - 일반적인 Fine Tuning
  - 라벨이 있는 데이터셋으로 학습 진행
- SFT Trainer
  - LLM 모델 학습
  - 지도 학습 Fine Tuning
  - 프롬프트 + 응답 형식의 데이터셋으로 학습 진행

3개월 차 회고

Keep

이번 달에 ADsP 자격증을 취득하였다.
운동을 다시 시작해서 체력을 꾸준히 키워나가려고 한다.
틈틈이 시간이 날 때마다 자격증 공부를 하고 있다.

Problem

점점 풀어지려고 해서 다시 마음을 다잡을 필요가 있다.
쉽게 아파서 건강에 유의해야 한다.

Try

Kaggle, 데이콘에서 다른 사람들의 코드를 통해서 공부를 해야 할 것 같다.
PyTorch, TensorFlow의 공식 홈페이지를 통해 공부를 해야 할 것 같다.

'SK네트웍스 Family AI캠프 10기 > Monthly 회고' 카테고리의 다른 글

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 6개월차 회고 (0)	2025.07.06
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 5개월차 회고 (2)	2025.06.09
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 4개월차 회고 (0)	2025.05.04
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 2개월차 회고 (0)	2025.03.03
[플레이데이터 SK네트웍스 Family AI 캠프 10기] 1개월차 회고 (1)	2025.02.02

이네의 개발 노트

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 3개월차 회고

3개월 차 학습

자연어 데이터 준비

자연어 딥러닝

자연어-이미지 멀티모달

LLM

3개월 차 회고

'SK네트웍스 Family AI캠프 10기 > Monthly 회고' 카테고리의 다른 글

티스토리툴바

[플레이데이터 SK네트웍스 Family AI 캠프 10기] 3개월차 회고

3개월 차 학습

자연어 데이터 준비

자연어 딥러닝

자연어-이미지 멀티모달

LLM

3개월 차 회고

'SK네트웍스 Family AI캠프 10기 > Monthly 회고' 카테고리의 다른 글

'SK네트웍스 Family AI캠프 10기/Monthly 회고' Related Articles

티스토리툴바