Llama 5 8B fine-tune — H100 1대로 1주일 학습 중인데 loss가 안 떨어집니다

Question

Llama 5 8B로 사내 코드 + 문서 데이터(약 80K 샘플) fine-tune 중입니다. H100 1장, 1주일째 학습 중인데 다음 상황:

Step 8000:
  train_loss: 0.42 (시작 1.8 → 점점 감소)
  eval_loss: 1.12 (시작 1.15 → 거의 변화 없음)
  eval_perplexity: 3.06

train loss는 잘 떨어지는데 eval loss는 거의 그대로. overfit인 것 같은데 — 데이터 적나요? hyperparameter 조정인가요?

설정

LoRA r=16, alpha=32, dropout=0.1
lr 2e-4, batch 8, gradient acc 4
warmup 100 step, cosine schedule
3 epoch (현재 2.4 epoch)

김영삼 · Accepted Answer

전형적인 overfitting 패턴입니다. 데이터셋 80K는 8B 모델 fine-tune에 적은 편입니다(보통 200K+). 그래도 개선 가능한 패턴. 1. LoRA rank 줄이기 r=16은 작은 데이터에 비해 큽니다. 모델이 외워버려요. r=8 또는 4로 줄여 capacity 감소. lora_r = 4 # 16 → 4 lora_alpha = 16 # 32 → 16 (alpha=r*4 비율 유지) 2. dropout 0.1 → 0.3 regularization 강화. eval loss 개선에 즉시 효과. 3. lr 2e-4 → 1e-4 학습률이 다소 큽니다. 작은 데이터셋에 큰 lr은 overfit 가속. 4. early stopping 현재 2.4 epoch인데 1.5 epoch 즈음 eval loss 최저점이 있을 가능성 큽니다. early stopping 켜기. training_args = TrainingArguments( load_best_model_at_end=True,

데이터사이언스현 · Answer

LLama 5 8B는 base model 자체가 강해서 LoRA만으로도 충분한 경우 많습니다. 8B base를 그대로 쓰고 system prompt + few-shot으로 먼저 시도해보세요. Fine-tune 비용 1주일 vs prompt engineering 1일.

ml_jang · Answer

QLoRA로 4-bit base + LoRA fine-tune하면 메모리 절감 + 일부 regularization 효과도 있습니다. H100 1장에 8B QLoRA + r=4면 batch 32까지 가능합니다. 학습 시간도 단축.

오픈소스맨 · Answer

제가 운영하는 서비스에도 비슷한 케이스가 있어서 try해볼 만하네요. 결과 나오면 share할게요.

타입스크립트러 · Answer

주말에 PoC 돌려봤는데 잘 됐어요. 다음 주 production 일부에 단계적 적용 예정입니다.

댓글 0