์ต๊ทผ ๋จ์ํ ์ฑ๋ด ๊ตฌํ์ ๋์ด, ๊ธฐ์ ํ ์๋น์ค๋ ๋ณต์กํ LLM ์์คํ ๊ฐ๋ฐ์ ํ๋ ค๋ ์์ง์์ด ๊ฐ์ํ๋๊ณ ์์ต๋๋ค. ํ์ง๋ง ์ด ๊ณผ์ ์์ ๋ง๋๋ ์๋ง์ ์ฉ์ด์ ๊ฐ๋ ๋ค์ ๊ฐ๋ฐ์์ ์ํคํ ํธ๋ค์๊ฒ ํฐ ์ฅ๋ฒฝ์ด ๋๊ธฐ๋ ํฉ๋๋ค.
๋จ์ํ API ํธ์ถ์ ๋์ด, ์ฑ๋ฅ๊ณผ ๋น์ฉ ํจ์จ์ฑ์ ๋์์ ์ก๋ LLM ์๋น์ค๋ฅผ ์ค๊ณํ๊ธฐ ์ํด ๋ฐ๋์ ์์์ผ ํ ํต์ฌ ๊ธฐ์ ์ฉ์ด๋ค์ ์ ๋ฆฌํด ๋๋ฆฝ๋๋ค.
๋ค๋ฅธ ๊ฒ์๋ฌผ๋ ํ๋ฒ ์ฝ์ด๋ณด์ธ์!
-
OpenAI Codex CLI ์ฌ์ธต ๋ถ์ (2026): Rust ๋ก์ปฌ ์ฝ๋ฉ ์์ด์ ํธ -
Hermes Agent ์ฌ์ธต ๋ถ์ (2026): ์๊ธฐ ํ์ต ์คํ์์ค AI ์์ด์ ํธ -
[๊ธฐ์ ๋ฆฌํฌํธ] ๋จ์ ๊ฒ์์ ๋์ด ์ถ๋ก ์ผ๋ก: 'GraphRAG'๊ฐ ๊ฐ์ ธ์ฌ ๋ฐ์ดํฐ ์ํคํ ์ฒ์ ๋ณํ -
[๊ธฐ์ ๋ฆฌํฌํธ] AI ์์ด์ ํธ์ 'USB-C' ํ์ค, MCP 2.0์ด ๋ฐ๊พธ๋ ์ํํธ์จ์ด ์ํคํ ์ฒ -
[๊ธฐ์ ๋ฆฌํฌํธ] AI ์ํคํ ์ฒ์ ์๋ก์ด ์ ํ์ง, '๋ง๋ฐ-3(Mamba-3)'๊ฐ ์ฃผ๋ชฉ๋ฐ๋ ์ด์
1. ๊ธฐ์ด ๋ค์ง๊ธฐ: ๋ชจ๋ธ๊ณผ ํ ํฐ
- LLM (Large Language Model): ์์ญ์ต ๊ฐ์ ๋งค๊ฐ๋ณ์(Parameter)๋ฅผ ๊ฐ์ง ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. GPT, Claude, Llama ๋ฑ์ด ๋ํ์ ์ด๋ฉฐ, ํ ์คํธ์ ๋ฌธ๋งฅ์ ์ดํดํ๊ณ ์์ฑํ๋ ‘๋’ ์ญํ ์ ํฉ๋๋ค.
- ํ ํฐ (Token): ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ฒ๋ฆฌํ๋ ์ต์ ๋จ์์ ๋๋ค. ์์ด๋ ๋จ์ด ์ค์ฌ, ํ๊ตญ์ด๋ ํํ์ ์ค์ฌ์ ๋ถ์ ์ด ์ผ์ด๋๋ฉฐ, ์ด ํ ํฐ์ ๊ฐ์๊ฐ ๊ณง API ๋น์ฉ๊ณผ ๋ชจ๋ธ์ ์ฒ๋ฆฌ ์๋๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
- ์ปจํ ์คํธ ์๋์ฐ (Context Window): ๋ชจ๋ธ์ด ํ ๋ฒ์ ๊ธฐ์ตํ๊ณ ์ฒ๋ฆฌํ ์ ์๋ ์ ๋ณด์ ์์ ๋๋ค. ์ด ๊ณต๊ฐ์ด ํด์๋ก ๊ธด ๋ฌธ์๋ฅผ ์์ฝํ๊ฑฐ๋ ๋ณต์กํ ๋ํ๋ฅผ ์ด์ด๊ฐ๋ ๋ฐ ์ ๋ฆฌํฉ๋๋ค.
2. ๋ฐ์ดํฐ ์ ํ๋๋ฅผ ๋์ด๋ RAG์ ๋ฒกํฐ DB์ ์ญํ
๋ชจ๋ธ์ด ํ์ตํ์ง ์์ ์ต์ ์ ๋ณด๋ ๊ธฐ์ ๋ด๋ถ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ธฐ ์ํ ํ์ ๊ธฐ์ ์ ๋๋ค.
- RAG (Retrieval-Augmented Generation): ‘๊ฒ์ ์ฆ๊ฐ ์์ฑ’์ด๋ผ๊ณ ํ๋ฉฐ, ์ง๋ฌธ์ ๋ตํ๊ธฐ ์ ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ๊ด๋ จ ์ ๋ณด๋ฅผ ๋จผ์ ์ฐพ์(Retrieval) ๋ชจ๋ธ์๊ฒ ์ ๋ฌํ๋ ๋ฐฉ์์ ๋๋ค. ํ ๋ฃจ์๋ค์ด์ (ํ๊ฐ ํ์)์ ์ค์ด๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ๋๋ค.
- ์๋ฒ ๋ฉ (Embedding): ํ ์คํธ๋ฅผ ์ปดํจํฐ๊ฐ ์ดํดํ ์ ์๋ ‘์ซ์ ๋ฒกํฐ(Vector)’๋ก ๋ณํํ๋ ๊ณผ์ ์ ๋๋ค. ์๋ฏธ๊ฐ ๋น์ทํ ๋ฌธ์ฅ์ผ์๋ก ์ขํ ๊ณต๊ฐ์์ ๊ฐ๊น๊ฒ ์์นํ๊ฒ ๋ฉ๋๋ค.
- ๋ฒกํฐ ๋ฐ์ดํฐ๋ฒ ์ด์ค (Vector DB): ์๋ง ๊ฐ์ ์๋ฒ ๋ฉ ๋ฐ์ดํฐ๋ฅผ ์ ์ฅํ๊ณ , ์ฌ์ฉ์์ ์ง๋ฌธ๊ณผ ๊ฐ์ฅ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ์ด๊ณ ์์ผ๋ก ๊ฒ์ํด ์ฃผ๋ ์ ์ฅ์์ ๋๋ค. (ChromaDB, Pinecone, Milvus ๋ฑ)
์ฃผ์ Vector DB TOP 4 ๋น๊ต
RAG ์์คํ ๊ตฌ์ถ ์ ๊ฐ์ฅ ๊ณ ๋ฏผ๋๋ ๋ฒกํฐ DB ์ ํ์ ๋๊ธฐ ์ํ ๋น๊ตํ์ ๋๋ค.
| ๊ตฌ๋ถ | Pinecone | โญ๏ธMilvus(๊ธฐ์ ์ถ์ฒ) | Weaviate | โญ๏ธChroma(๊ฐ์ธ๊ฐ๋ฐ์ถ์ฒ) |
| ์ ํ | ์์ ๊ด๋ฆฌํ (SaaS) | ์คํ์์ค / ์ํฐํ๋ผ์ด์ฆ | ์คํ์์ค / ํด๋ผ์ฐ๋ | ์คํ์์ค (๊ฒฝ๋) |
| ์ฃผ์ ํน์ง | ์ธํ๋ผ ๊ด๋ฆฌ ํ์ ์์, ๋น ๋ฅธ ์์ | ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ต์ ํ, ๋์ ํ์ฅ์ฑ | ๊ฐ์ฒด ์งํฅ์ ๋ฐ์ดํฐ ๋ชจ๋ธ, ํค์๋ ๊ฒ์ ๊ฒฐํฉ | ํ์ด์ฌ ๊ธฐ๋ฐ ๋งค์ฐ ๊ฐํธํ ์ค์ |
| ์ ์ฅ ๋ฐฉ์ | ํด๋ผ์ฐ๋ ์ ์ฉ | ๋ถ์ฐ ์คํ ๋ฆฌ์ง (S3 ๋ฑ) | ์์ฒด ๋ก์ปฌ/ํด๋ผ์ฐ๋ ์ ์ฅ | ๋ก์ปฌ ๋์คํฌ / ์ธ๋ฉ๋ชจ๋ฆฌ |
| ์ ํฉํ ์ฌ๋ก | ์ด์ ๋ฆฌ์์ค๊ฐ ๋ถ์กฑํ ์คํํธ์ | ๋๊ท๋ชจ ์ํฐํ๋ผ์ด์ฆ ๋ฐ์ดํฐ ์ฒ๋ฆฌ | ๋ณต์กํ ๊ด๊ณํ ๋ฐ์ดํฐ ๊ฒฐํฉ ํ์ ์ | ๋น ๋ฅธ ํ๋กํ ํ์ ๊ฐ๋ฐ ๋ฐ ๋ก์ปฌ ํ ์คํธ |
3. ์ต์ ํ ๊ธฐ์ : ํ์ธ ํ๋๊ณผ ์์ํ
๋ฒ์ฉ ๋ชจ๋ธ์ ์ฐ๋ฆฌ ์๋น์ค์ ๋ฑ ๋ง๊ฒ ๊น๋ ๊ณผ์ ์ ๋๋ค.
- ํ์ธ ํ๋ (Fine-tuning): ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ํน์ ๋ถ์ผ์ ๋ฐ์ดํฐ๋ฅผ ์ถ๊ฐ๋ก ํ์ต์์ผ ๋งํฌ๋ ์ ๋ฌธ ์ง์์ ์ต๋์ํค๋ ๊ณผ์ ์ ๋๋ค. ์ต๊ทผ์๋ ์์ ํจ์จ์ฑ์ ์ํด LoRA๋ QLoRA ๊ฐ์ ๊ธฐ๋ฒ์ด ์ฃผ๋ก ์ฐ์ ๋๋ค.
- ์์ํ (Quantization): ๋ชจ๋ธ์ ๊ฐ์ค์น(Weight)๋ฅผ ์ ๋ฐ๋๊ฐ ๋ฎ์ ๋ฐ์ดํฐ ํ์ (์: 16bit โ 4bit)์ผ๋ก ๋ณํํ๋ ๊ธฐ์ ์ ๋๋ค. ๋ชจ๋ธ์ ์ฉ๋๊ณผ ์๊ตฌ ์ฌ์์ ํ๊ธฐ์ ์ผ๋ก ๋ฎ์ถฐ ์๋์ ์ผ๋ก ๋ฎ์ GPU ๋ฉ๋ชจ๋ฆฌ์์ ๊ฑฐ๋ ๋ชจ๋ธ์ ๋๋ฆด ์ ์๊ฒ ํด์ค๋๋ค.
๐ก ์ ์์ํ๋ฅผ ํ๋ฉด ๋ชจ๋ธ์ด ๋ ๋นจ๋ผ์ง๊น?
1. ๋ฉ๋ชจ๋ฆฌ ๋์ญํญ(Memory Bandwidth) ๋ณ๋ชฉ ํด์ (๊ฐ์ฅ ์ค์!)
LLM์ ์ถ๋ก ์๋๋ฅผ ๊ฒฐ์ ํ๋ ๊ฐ์ฅ ํฐ ์์ธ์ ์ฐ์ฐ ์๋ ์์ฒด๊ฐ ์๋๋ผ ‘๋ฉ๋ชจ๋ฆฌ์ ์๋ ๊ฐ์ค์น๋ฅผ ์ฐ์ฐ ์ฅ์น(GPU ์ฝ์ด)๋ก ์ผ๋ง๋ ๋นจ๋ฆฌ ์ฎ๊ธฐ๋๋’์ ๋๋ค.
FP16 (16๋นํธ):ย ๋ฐ์ดํฐ ํ๋๋ฅผ ์ฎ๊ธธ ๋ 16๋นํธ์ ํต๋ก๊ฐ ํ์ํฉ๋๋ค.
INT4 (4๋นํธ):ย ๋๊ฐ์ ํต๋ก๋ก ํ ๋ฒ์ย 4๋ฐฐ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ๋ณด๋ผ ์ ์์ต๋๋ค.
๊ฒฐ๊ณผ:ย ๋ฐ์ดํฐ๋ฅผ ์ฎ๊ธฐ๋ ์๊ฐ์ด ์ค์ด๋๋ GPU๊ฐ ๋ ธ๋ ์๊ฐ ์์ด ๋ฐ๋ก ์ฐ์ฐ์ ์์ํ๊ฒ ๋์ด ์๋ต ์๋๊ฐ ๋นจ๋ผ์ง๋๋ค.
2. ํ๋์จ์ด ๊ฐ์๊ธฐ(Tensor Cores) ํ์ฉ ์ต์ ํ
์ต์ NVIDIA GPU(RTX 3090 ํฌํจ)์๋ ํ ์ ์ฝ์ด(Tensor Cores)๋ผ๋ ์ ์ฉ ์ฐ์ฐ ์ฅ์น๊ฐ ์์ต๋๋ค.
์ด ์ฅ์น๋ ๊ณ ์ ๋ฐ๋(FP32) ์ฐ์ฐ๋ณด๋ค ์ ์ ๋ฐ๋(INT8,ย INT4,ย FP8) ์ฐ์ฐ์ ์ํํ ๋ ๋ฌผ๋ฆฌ์ ์ผ๋ก ํจ์ฌ ๋ ๋์ TFLOPS(์ด๋น ํ ๋ผ ์ฐ์ฐ ํ์)๋ฅผ ๋ด๋๋ก ์ค๊ณ๋์ด ์์ต๋๋ค.
์ฆ, ํ๋์จ์ด๊ฐ “๋ ์ฌ์ด ์ฐ์ฐ”์ ์ฒ๋ฆฌํ๊ฒ ๋์ด ๊ณ์ฐ ์์ฒด๊ฐ ๋นจ๋ผ์ง๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
3. ์บ์ ๋ฉ๋ชจ๋ฆฌ(L1/L2/L3 Cache) ์ ์ค๋ฅ ์์น
์ปดํจํฐ์ CPU๋ GPU ๋ด๋ถ์๋ ์์ฃผ ๋น ๋ฅด์ง๋ง ์ฉ๋์ด ์์ย ์บ์ ๋ฉ๋ชจ๋ฆฌ๊ฐ ์์ต๋๋ค.
๋ชจ๋ธ์ด ์์ํ๋์ด ํฌ๊ธฐ๊ฐ ์์์ง๋ฉด, ๋ ๋ง์ ๊ฐ์ค์น ๋ฐ์ดํฐ๊ฐ ์ด ๋น ๋ฅธ ์บ์ ๋ฉ๋ชจ๋ฆฌ์ ๋จธ๋ฌด๋ฅผ ์ ์๊ฒ ๋ฉ๋๋ค.
๋๋ฆฐ ๋ฉ์ธ ๋ฉ๋ชจ๋ฆฌ(VRAM)๊น์ง ๊ฐ์ง ์๊ณ ์บ์์์ ๋ฐ๋ก ๋ฐ์ดํฐ๋ฅผ ๊บผ๋ด ์ฐ๊ธฐ ๋๋ฌธ์ ์ง์ฐ ์๊ฐ(Latency)์ด ํ๊ธฐ์ ์ผ๋ก ์ค์ด๋ญ๋๋ค.
ํ๋ง๋:ย “LLM ์๋น์ค์์ ์์ํ๋ ์ ํ์ด ์๋ ํ์์ ๋๋ค. ์๋ ๊ฒ์ ์ฝ๊ฐ์ ์ ํ๋(Perplexity)๋ฟ์ด์ง๋ง, ์ป๋ ๊ฒ์ ์๋น์ค๊ฐ ๊ฐ๋ฅํ ์์ค์ย ์๋์ ์ธ ์๋ต ์๋์ย ๋น์ฉ ์ ๊ฐ์ด๊ธฐ ๋๋ฌธ์ ๋๋ค.”
| ํญ๋ชฉ | ์์ํ ์ (FP16) | ์์ํ ํ (INT4) | ํจ๊ณผ |
| ๋ชจ๋ธ ์ฉ๋ | 100% (์: 14GB) | ์ฝ 25~30% (์: 4GB) | VRAM ์ ์ฝ |
| ๋ฐ์ดํฐ ์ ์ก ์๋ | ๊ธฐ์ค (1x) | ์ต๋ 4๋ฐฐ ๋น ๋ฆ | ์ ์ก ๋ณ๋ชฉ ํด๊ฒฐ |
| ์ฐ์ฐ ํจ์จ | ์ผ๋ฐ ์ฐ์ฐ | ํ๋์จ์ด ๊ฐ์ ์ฐ์ฐ | ๊ณ์ฐ ์๋ ํฅ์ |
4. ์ด์ ์ํคํ ์ฒ: ์ธํผ๋ฐ์ค ์์ง๊ณผ ์์ด์ ํฑ ์ํฌํ๋ก์ฐ
- ์ธํผ๋ฐ์ค ์์ง (Inference Engine): ํ์ต๋ ๋ชจ๋ธ์ ์ค์ ๋ก ๊ตฌ๋ํ๊ณ API ํํ๋ก ์๋นํ๋ ์ํํธ์จ์ด์ ๋๋ค. Ollama, vLLM, TGI ๋ฑ์ด ์์ผ๋ฉฐ, GPU ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๋ฅผ ๋ด๋นํฉ๋๋ค.
- ์์ด์ ํฑ ์ํฌํ๋ก์ฐ (Agentic Workflow): AI๋ฅผ ๋จ์ํ ๋ต๋ณ ๊ธฐ๊ณ๊ฐ ์๋, ์ค์ค๋ก ๊ณํ์ ์ธ์ฐ๊ณ ๋๊ตฌ(๋ธ๋ผ์ฐ์ง, ์ฝ๋ ์คํ ๋ฑ)๋ฅผ ์ฌ์ฉํ๋ ‘์์ด์ ํธ’๋ก ์ค๊ณํ๋ ๋ฐฉ์์ ๋๋ค. LangChain์ด๋ LlamaIndex๊ฐ ์ด ์ค๊ณ๋ฅผ ๋๋ ํ๋ ์์ํฌ์ ๋๋ค.
์ฃผ์ LLM ์ธํผ๋ฐ์ค ์์ง ๋น๊ต
์ธํผ๋ฐ์ค ์์ง์ ๋จ์ํ ๋ชจ๋ธ์ ์คํํ๋ ๊ฒ์ ๋์ด, ๋ฉ๋ชจ๋ฆฌ ๊ด๋ฆฌ(KV ์บ์), ๋ณ๋ ฌ ์ฒ๋ฆฌ, ์์ฒญ ํ์ ๋ฑ์ ๋ด๋นํ์ฌ ์๋น์ค์ ์ฒ๋ฆฌ๋(Throughput)๊ณผ ์๋ต ์๋(Latency)๋ฅผ ๊ฒฐ์ ํฉ๋๋ค.
| ์์ง๋ช | vLLM | Ollama | TGI (Hugging Face) | llama.cpp |
| ์ฃผ์ ํ๊ฒ | ๊ณ ์ฑ๋ฅ ์๋ฒ/์ด์ ํ๊ฒฝ | ๊ฐ์ธ ๊ฐ๋ฐ์/๋ก์ปฌ ํ๊ฒฝ | ์ํฐํ๋ผ์ด์ฆ/์ด์ ํ๊ฒฝ | ์ด๊ฒฝ๋/์ฃ์ง ๋๋ฐ์ด์ค |
| ํต์ฌ ๊ธฐ์ | PagedAttention (๋ฉ๋ชจ๋ฆฌ ํจ์จ ๊ทน๋ํ) | ๊ฐ๋จํ CLI, ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๊ด๋ฆฌ | ํ๋์จ์ด ๊ฐ์, ์ต์ ํ๋ ์ํฌํ๋ก์ฐ | C/C++ ๊ธฐ๋ฐ ๋ฌด์์กด์ฑ ์คํ |
| ์ฅ์ | ์๋์ ์ธ ์ฒ๋ฆฌ๋, ๋๊ท๋ชจ ์์ฒญ ์ฒ๋ฆฌ | ์ค์น ๋ฐ ๋ชจ๋ธ ๊ต์ฒด๊ฐ ๋งค์ฐ ๊ฐํธ | ํ๊น ํ์ด์ค ์ํ๊ณ์ ์๋ฒฝ ํธํ | CPU, ๋งฅ, ์๋๋ก์ด๋ ๋ฑ ๋ฒ์ฉ์ฑ ์ต๊ณ |
| ๋จ์ | NVIDIA GPU ์์กด๋ ๋์ | ์ธ๋ฐํ ์ฑ๋ฅ ํ๋์ ํ๊ณ | ์ค์ ์ด ๋ค์ ๋ณต์กํ ์ ์์ | ๋๊ท๋ชจ ๋ณ๋ ฌ ์์ฒญ ์ฒ๋ฆฌ ์ฑ๋ฅ ๋ถ์กฑ |
| ์ถ์ฒ ํ๊ฒฝ | ์์ฉ ์๋น์ค API ์๋ฒ | ๊ฐ์ธ์ฉ ์ฑ๋ด, ๋ก์ปฌ ํ ์คํธ | ํด๋ผ์ฐ๋ ๊ธฐ๋ฐ LLM ์๋น์ค | ์ฌ๋ฌผ์ธํฐ๋ท(IoT), ์ ์ฌ์ PC |
์ค์ ์ด์์ ์ํ LLM ์ฑ๋ฅ ์งํ (Performance Metrics)
์ฌ์ฉ์๊ฐ “์ด AI ๋๋ฌด ๋๋ฆฐ๋ฐ?”๋ผ๊ณ ๋งํ ๋, ์๋ ์งํ๋ค์ ๋ถ์ํ์ฌ ์ด๋๊ฐ ๋ณ๋ชฉ(Bottleneck)์ธ์ง ์ฐพ์๋ด์ผ ํฉ๋๋ค.
| ์ฉ์ด | ํ๋ค์ | ์ค๋ช (์ฌ์ฉ์ ์ฒด๊ฐ) | ์ค์ ๊ด์ |
| TTFT | Time to First Token | ์ฑํ ์ ๋ณด๋ด๊ณ ์ฒซ ๊ธ์๊ฐ ๋ํ๋ ๋๊น์ง ๊ฑธ๋ฆฌ๋ ์๊ฐ | ๊ฐ์ฅ ์ค์ํ ์ฒด๊ฐ ์๋. ๋ชจ๋ธ์ด ์ ๋ ฅ์ ํด์ํ๊ณ ์ฒซ ๋จ์ด๋ฅผ ๋ฑ๋ ์๋์ ๋๋ค. |
| TPS | Tokens Per Second | ์ฒซ ์๋ต ์ดํ ๋ง์ด ๋์ค๋ ์๋ (๊ธ์ ์์ฑ ์๋) | ์ด๋น ๋ช ๊ฐ์ ํ ํฐ์ ์์ฑํ๋์ง ๋ํ๋ ๋๋ค. ๋ณดํต ์ธ๊ฐ์ ์ฝ๊ธฐ ์๋์ธ 5~10 TPS ์ด์์ ๊ถ์ฅํฉ๋๋ค. |
| E2EL | End-to-End Latency | ์ง๋ฌธ์ ๋์ง๊ณ ์ ์ฒด ๋ต๋ณ์ด ์๋ฃ๋ ๋๊น์ง์ ์ด ์๊ฐ | ๊ธด ๋ต๋ณ์ผ์๋ก ๊ธธ์ด์ง๋๋ค. ์์ฝ์ด๋ ๋ถ์ ์์ ์ ์ ์ฒด ํจ์จ์ ์ธก์ ํ๋ ์งํ์ ๋๋ค. |
| Throughput | Throughput | ๋จ์ ์๊ฐ๋น ์์คํ ์ด ์ฒ๋ฆฌํ๋ ์ด ์์ ๋ | ์ฐ๋ฆฌ ์๋ฒ๊ฐ ๋์์ ๋ช ๋ช ์ ์ฌ์ฉ์์๊ฒ ๋๊น ์์ด ๋ต๋ณ์ ์ค ์ ์๋์ง(๋์์ฑ)๋ฅผ ๋ํ๋ ๋๋ค. |
๐ก LLM ์๋น์ค๋ฅผ ์ํ ์ฑ๋ฅ ์ต์ ํ ํ
1. ์ TTFT(์ฒซ ๊ธ์ ์๋)๊ฐ ์ค์ํ๊ฐ์?
์ฌ์ฉ์๋ ์ ์ฒด ๋ต๋ณ์ด ๋์ฌ ๋๊น์ง ๊ธฐ๋ค๋ฆฌ๋ ๊ฒ๋ณด๋ค, ์ฒซ ๊ธ์๊ฐ ์ฆ์ ๋ํ๋ ๋ ์๋น์ค๊ฐ ๋น ๋ฅด๋ค๊ณ ๋๋๋๋ค. ์ด๋ฅผ ์ํด ์๋น์ค ์ค๊ณ ์ ๋ฐ๋์ ์คํธ๋ฆฌ๋ฐ(Streaming) ๋ฐฉ์์ ๋์ ํด์ผ ํฉ๋๋ค.
2. TPOT (Time Per Output Token)๋?
TPS์ ์ญ์๋ก, ํ ํฐ ํ๋๋ฅผ ์์ฑํ๋ ๋ฐ ํ๊ท ๋ช ์ด๊ฐ ๊ฑธ๋ฆฌ๋์ง๋ฅผ ์๋ฏธํฉ๋๋ค.
- ๊ณต์: TPOT=TPS1โ
- ์๋ฅผ ๋ค์ด 20 TPS๋ผ๋ฉด, ํ ํฐ ํ๋๋น 0.05์ด๊ฐ ๊ฑธ๋ฆฌ๋ ์ ์ ๋๋ค. ์ด ๊ฐ์ด ์ผ์ ํ๊ฒ ์ ์ง๋์ด์ผ ์ฌ์ฉ์๊ฐ ๋๋ผ๋ ‘๋งํ๋ ์๋’๊ฐ ๋๊ธฐ์ง ์์ต๋๋ค.
3. ์ด์ ํ๊ฒฝ์์์ ๋ณ๋ชฉ ์ง์
- TTFT๊ฐ ๋๋ฆฌ๋ค๋ฉด? ์ ๋ ฅ(Prompt)์ด ๋๋ฌด ๊ธธ๊ฑฐ๋, ๋ชจ๋ธ์ด ์ฒซ ์ฐ์ฐ์ ์์ํ๋ ๋ก์ง(Prefill)์ ๋ณ๋ชฉ์ด ์๋ ๊ฒ์ ๋๋ค.
- TPS๊ฐ ๋๋ฆฌ๋ค๋ฉด? GPU ์ฑ๋ฅ(VRAM ๋์ญํญ)์ด ํ๊ณ์ ๋๋ฌํ๊ฑฐ๋, ๋์ ์ ์์๊ฐ ๋๋ฌด ๋ง์ ์ฐ์ฐ ์์์ด ๋ถ์กฑํ ์ํ์ ๋๋ค.
๐ ํ๋์ ๋ณด๋ ์งํ ๊ด๊ณ๋
์ง๋ฌธ ์ ์ก โ [ ๋๊ธฐ / ์ฐ์ฐ ์์ ] โ ์ฒซ ๊ธ์ ์ถ๋ ฅ (TTFT) โ [ ํ๋ค๋ค๋ฅ… (TPS/TPOT) ] โ ๋ต๋ณ ์๋ฃ (E2EL)
5. ๐ก ์์ฝ: ํ๋์ ๋ณด๋ LLM ๊ธฐ์ ์คํ
| ๊ตฌ๋ถ | ํต์ฌ ์ฉ์ด | ์ญํ ๋ฐ ์ค์์ฑ |
| ๋ชจ๋ธ | LLM, Token, Context Window | ์์คํ ์ ๋๋์ด์ ๋น์ฉ ๋ฐ์์ ํต์ฌ |
| ์ง์ ํ์ฅ | RAG, Vector DB, Embedding | ์ต์ ์ ๋ณด ๋ฐ์ ๋ฐ ํ ๋ฃจ์๋ค์ด์ ๋ฐฉ์ง |
| ์ต์ ํ | Fine-tuning, Quantization | ํน์ ๋๋ฉ์ธ ํนํ ๋ฐ ํ๋์จ์ด ์๊ตฌ์ฌํญ ์ ๊ฐ |
| ์คํ/์ด์ | Inference Engine, Agentic Workflow | ์ค์ ์๋น์ค ๊ตฌ๋ ๋ฐ ์์จ์ ์์ ์ํ ๋ฅ๋ ฅ |
๐ฅ๏ธ ์ ๋ก์ปฌ ์ธํ๋ผ๊ฐ ์ค์ํ๊ฐ?
์ต๊ทผ OpenClaw ๊ฐ์ ์์ด์ ํธ ์์คํ ์ด ์ฃผ๋ชฉ๋ฐ์ผ๋ฉด์, API ๋น์ฉ ๋ถ๋ด์ ์ค์ด๊ธฐ ์ํด ๋ก์ปฌ LLM์ ์ง์ ์๋นํ๋ ์ฌ๋ก๊ฐ ๋๊ณ ์์ต๋๋ค. ํนํ M4 ์นฉ์ ์ ๋งฅ ๋ฏธ๋๋ ๋๋ํ VRAM์ ๊ฐ์ถ RTX 3090/4090 ํ๊ฒฝ์ ๊ฐ์ธ ๊ฐ๋ฐ์๊ฐ ๊ธฐ์ ์ฉ ์์ค์ ํ๋กํ ํ์ ์ ๊ตฌ์ถํ๊ธฐ์ ์ต์ ์ ํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.
์ด๋ฌํ ๊ธฐ์ ์ฉ์ด๋ค์ ๋จ์ํ ์ ์ ์ด์์ผ๋ก ์ดํดํ๊ณ , ๊ฐ ์์๊ฐ ์ ์ฒด ์์คํ ์ ์ง์ฐ ์๊ฐ(Latency)๊ณผ ๋น์ฉ(Cost)์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ํ์ ํ๋ ๊ฒ์ด ์ง์ ํ AI ์ํคํ ์ฒ ์ค๊ณ์ ์์์ ๋๋ค.

๋ต๊ธ ๋จ๊ธฐ๊ธฐ