추론 속도 기법Quantization (INT4·FP8)Continuous BatchingPagedAttentionFlashAttentionSpeculative Decoding전용 하드웨어 (Groq·TPU)