3개월 차 학습
자연어 데이터 준비
NLP
- 자연어 처리(NLP; Natural Language Processing)
- NLU(Natural Language Understanding)
- NLG(Natural Language Generation)
- 텍스트 전처리(Text Preprocessing)
- 정제(Cleaning)
- 소문자로 변경
- 출현 횟수가 적은 단어 제거
- 노이즈 제거
- 추출(Stemming)
- 어간(Stem)
- 표제어(Lemmatization)
- 불용어(Stopword)
- 토큰화(Tokenization
- 형태소 분석
- 어휘집(Vocabulary)
- Embedding
- Embedding
- Sorting
- Encoding
- Padding
- 정제(Cleaning)
자연어 딥러닝
CNN
- 주로 이미지 처리에 사용되는 신경망
- Convolution과 Pooling 연산을 통해 공간적 특징 추출
- 여러 계층을 거치면서 점진적으로 추상적인 특징 학습
- 이미지 분류, 객체 탐지, 영상 처리, 자율주행 등
RNN
- 순차적 데이터(시계열, 자연어 등) 처리에 적합한 신경망
- 이전 상태(Hidden State)를 다음 상태로 전달하여 순서 정보 유지
- 긴 시퀀스를 다룰 때 기울기 소실(Vanishing Gradient) 문제 발생
- 자연어 처리(NLP), 시계열 데이터 예측, 음성 인식 등
LSTM
- RNN의 한계를 보완한 모델
- Cell State와 Gate(Input, Forget, Output) 구조를 도입하여 장기 의존성(Long-Term Dependency) 문제 해결
- 장기간의 시퀀스 데이터를 효과적으로 학습
- 기계 번역, 챗봇, 음악 생성, 주가 예측 등
GRU
- LSTM과 유사한 구조를 가진 RNN의 변형 모델
- Gate(Reset, Update) 개수를 줄여 연산량을 낮추고 학습 속도를 높임
- LSTM과 비교하면 비슷한 성능을 내면서도 더 단순하고 가벼운 모델
- 자연어 처리(NLP), 시계열 데이터 예측, 음성 인식 등
Seq2Seq
- 입력 시퀀스를 받아 다른 형태의 출력 시퀀스로 변환하는 모델 구조
- Encoder & Decoder
- Encoder: 입력 시퀀스를 고정된 길이의 벡터(컨텍스트 벡터)로 변환
- Decoder: 컨텍스트 벡터를 기반으로 원하는 출력 시퀀스 생성
- RNN, LSTM, GRU와 결합하여 구현이 가능하지만, 긴 문장을 처리할 때 정보 손실 발생
- Attention 기법 필요
- 기계 번역, 챗봇, 요약 등
Transformer
- Seq2Seq의 한계를 보완한 모델
- Self-Attention 메커니즘을 활용하여 병렬 연산 가능
- 긴 문장도 효율적으로 학습 가능
- 병렬 처리가 가능하여 학습 속도가 빠름
- 문맥을 잘 반영하여 번역, 요약, 문장 생성에서 높은 성능을 보임
- Multi-Head Self-Attention & Positional Encoding & Feed Forward Network
- 자연어 처리(NLP), 기계 번역, 요약, 이미지 생성 등
자연어-이미지 멀티모달
OCR
- 이미지나 문서에서 텍스트를 추출하는 기술
- OCR 동작 과정
- 이미지 전처리(Image Preprocessing)
- 텍스트 영역 검출(Text Detection)
- 문자 인식(Text Recognition)
- 후처리(Post Processing)
- CRNN(Convolutional Recurrent Neural Network)
- CRNN 구조
- Convolutional Layers
- Recurrent Layers
- Transcription Layers
- CRNN 구조
Image2Text
- 이미지를 입력받아 설명(캡션)을 생성하느 모델
- Image2Text 구성 요소
- 이미지 분석(Feature Extraction)
- 텍스트 생성(Text Generation)
- Attention Mechanism
GAN
- 생성 모델
- 가짜 데이터를 실제 같은 데이터처럼 생성
- GAN 구성 요소
- Generator
- 가짜 데이터 생성
- Discriminator
- 데이터가 진짜인지 가짜인지 판별
- Generator
- 학습 과정에서 두 네트워크가 경쟁하면서 점점 더 실제와 유사한 데이터 생성
- CGAN(Conditional GAN)
- 기본 GAN을 확장하여, 조건부 정보를 추가하는 모델
- DCGAN(Deep Convolutional GAN)
- GAN의 Generator와 Discriminator에 CNN 구조를 도입하여, 이미지 생성에 더 적합하도록 개선된 모델
- InfoGAN(Information Maximizing GAN)
- 기존 GAN에 조건부 정보를 추가하여, 이미지 생성의 다양성과 해석력을 높이는 모델
LLM
LLM(Large Language Model)
- 딥러닝 알고리즘과 통계 모델링을 활용하여 자연어 처리(NLP) 작업 수행
- 대규모 언어 데이터를 사전에 학습하여 문장 구조, 문법, 의미 등을 이해하고 생성
- LLaMA, Claude, SciSpace
Transformer
- Model
- ALBERT(Encoder Model), GPT(Decoder Model), BART(Encoder-Decoder Model)
- Pipeline
- Tokenization
- Model
- 특징 추출(Feature Extraction)
- FillMask
- 개체명 인식(NER; Named Entity Recognition)
- 질의응답(Question Answering)
- 감정 분석(Sentiment Analysis)
- 요약(Summarization)
- 텍스트 생성(Text Generation)
- 번역(Translation)
- 제로샷 분류(Zero-Shot Classification)
- Post Processing
- Trainer
- Trainer
- NLP 모델 학습
- 일반적인 Fine Tuning
- 라벨이 있는 데이터셋으로 학습 진행
- SFT Trainer
- LLM 모델 학습
- 지도 학습 Fine Tuning
- 프롬프트 + 응답 형식의 데이터셋으로 학습 진행
- Trainer
3개월 차 회고
Keep
- 이번 달에 ADsP 자격증을 취득하였다.
- 운동을 다시 시작해서 체력을 꾸준히 키워나가려고 한다.
- 틈틈이 시간이 날 때마다 자격증 공부를 하고 있다.
Problem
- 점점 풀어지려고 해서 다시 마음을 다잡을 필요가 있다.
- 쉽게 아파서 건강에 유의해야 한다.
Try
- Kaggle, 데이콘에서 다른 사람들의 코드를 통해서 공부를 해야 할 것 같다.
- PyTorch, TensorFlow의 공식 홈페이지를 통해 공부를 해야 할 것 같다.
'SK네트웍스 Family AI캠프 10기 > Monthly 회고' 카테고리의 다른 글
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 6개월차 회고 (0) | 2025.07.06 |
|---|---|
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 5개월차 회고 (2) | 2025.06.09 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 4개월차 회고 (0) | 2025.05.04 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 2개월차 회고 (0) | 2025.03.03 |
| [플레이데이터 SK네트웍스 Family AI 캠프 10기] 1개월차 회고 (1) | 2025.02.02 |