AI 벤치마크 비교
종합지능 투표 기준 실시간 성능 랭킹 텍스트 / 코딩 / 비전 / 이미지 / 영상
종합지능 투표 기준 실제 사용자 배틀 기반 ELO 점수 체크박스로 모델 선택 후 비교 가능
모델 2-4개 선택 비교하기
| 순위 | 모델명 (정확한 버전) | 제공사 | Text ELO | Code ELO | Vision ELO | 투표수 | 컨텍스트 | 출시일 | |
|---|---|---|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 Thinking | Anthropic | 1502 | 1546 | 11,801 | 200K | 2026-03 | ||
| 2 | Claude Opus 4.6 | Anthropic | 1501 | 1548 | 12,546 | 200K | 2026-03 | ||
| 3 | Gemini 3.1 Pro | 1493 | 1454 | 1276 | 14,677 | 2,000K | 2026-03 | ||
| 4 | Grok 4.20 Beta | xAI | 1492 | 7,396 | 131K | 2026-03 | |||
| 5 | Gemini 3 Pro | 1486 | 1290 | 41,762 | 2,000K | 2026-01 | |||
| 6 | GPT-5.4 | OpenAI | 1485 | 1457 | 4,965 | 128K | 2026-03 | ||
| 7 | GPT-5.2 | OpenAI | 1482 | 1275 | 10,140 | 128K | 2026-02 | ||
| 8 | Grok 4.20 Reasoning | xAI | 1481 | 4,504 | 131K | 2026-03 | |||
| 9 | Gemini 3 Flash | 1475 | 1274 | 31,060 | 1,000K | 2026-01 | |||
| 10 | Claude Opus 4.5 Thinking | Anthropic | 1474 | 1489 | 37,036 | 200K | 2025-11 | ||
| 11 | Grok 4.1 Thinking | xAI | 1470 | 5,200 | 131K | 2026-02 | |||
| 12 | Claude Opus 4.5 | Anthropic | 1465 | 1465 | 13,313 | 200K | 2025-11 | ||
| 13 | Claude Sonnet 4.6 | Anthropic | 1460 | 1521 | 5,876 | 200K | 2026-03 | ||
| 14 | Qwen 3.5 Max | Alibaba | 1460 | 7,800 | 131K | 2026-02 | |||
| 15 | GPT-5.3 | OpenAI | 1458 | 8,900 | 128K | 2026-02 | |||
| 16 | Gemini 3 Flash Thinking | 1455 | 1258 | 11,942 | 1,000K | 2026-01 | |||
| 17 | GPT-5.4 Standard | OpenAI | 1450 | 6,000 | 128K | 2026-03 | |||
| 18 | Grok 4.1 | xAI | 1445 | 7,200 | 131K | 2026-02 | |||
| 19 | GPT-5.1 | OpenAI | 1440 | 1248 | 9,824 | 128K | 2026-01 | ||
| 20 | GLM-5 | Zhipu AI | 1435 | 1445 | 4,316 | 128K | 2026-01 | ||
| 21 | Kimi K2.5 Thinking | Moonshot AI | 1430 | 1246 | 7,605 | 200K | 2026-02 | ||
| 22 | Gemini 2.5 Pro | 1425 | 1247 | 83,351 | 2,000K | 2025-03 | |||
| 23 | Claude Sonnet 4.5 | Anthropic | 1420 | 6,375 | 200K | 2025-09 | |||
| 24 | ERNIE 5.0 | Baidu | 1410 | 4,200 | 128K | 2026-01 | |||
| 25 | GPT-5.4 Nano | OpenAI | 400K | 2026-03 | |||||
| 26 | GPT-5.4 Mini | OpenAI | 400K | 2026-03 | |||||
| 27 | GPT-5.4 Pro | OpenAI | 1,050K | 2026-03 | |||||
| 28 | GPT-5.3 Chat | OpenAI | 128K | 2026-03 | |||||
| 29 | GPT-5.3-Codex | OpenAI | 400K | 2026-03 | |||||
| 30 | GPT-5.2-Codex | OpenAI | 400K | 2026-03 | |||||
| 31 | GPT-5.2 Chat | OpenAI | 128K | 2026-03 | |||||
| 32 | GPT-5.2 Pro | OpenAI | 400K | 2026-03 | |||||
| 33 | GPT-5.1-Codex-Max | OpenAI | 400K | 2026-03 | |||||
| 34 | GPT-5.1 Chat | OpenAI | 128K | 2026-03 | |||||
| 35 | GPT-5.1-Codex | OpenAI | 400K | 2026-03 | |||||
| 36 | GPT-5.1-Codex-Mini | OpenAI | 400K | 2026-03 | |||||
| 37 | GPT-5 Image Mini | OpenAI | 400K | 2026-03 | |||||
| 38 | GPT-5 Image | OpenAI | 400K | 2026-03 | |||||
| 39 | o3 Deep Research | OpenAI | 200K | 2026-03 | |||||
| 40 | o4 Mini Deep Research | OpenAI | 200K | 2026-03 | |||||
| 41 | GPT-5 Pro | OpenAI | 400K | 2026-03 | |||||
| 42 | GPT-5 Codex | OpenAI | 400K | 2026-03 | |||||
| 43 | GPT-5 Chat | OpenAI | 128K | 2026-03 | |||||
| 44 | GPT-5 | OpenAI | 400K | 2026-03 | |||||
| 45 | GPT-5 Mini | OpenAI | 400K | 2026-03 | |||||
| 46 | GPT-5 Nano | OpenAI | 400K | 2026-03 | |||||
| 47 | o3 Pro | OpenAI | 200K | 2026-03 | |||||
| 48 | o4 Mini High | OpenAI | 200K | 2026-03 | |||||
| 49 | o3 | OpenAI | 200K | 2026-03 | |||||
| 50 | o4 Mini | OpenAI | 200K | 2026-03 | |||||
| 51 | o3 Mini High | OpenAI | 200K | 2026-03 | |||||
| 52 | o3 Mini | OpenAI | 200K | 2026-03 |
오픈소스 LLM 랭킹
(HuggingFace Open LLM Leaderboard 별도 분류)
| 순위 | 모델명 | 제공사 | Arena ELO | MMLU | 컨텍스트 | 출시일 | 바로가기 |
|---|---|---|---|---|---|---|---|
| 1 | Qwen 3.5 397B | Alibaba | 1405 | 32K | 2026-02 | HF | |
| 2 | DeepSeek R2 | DeepSeek | 1390 | 88.0 | 128K | 2025-12 | HF |
| 3 | Qwen 3 235B-A22B | Alibaba | 1380 | 87.8 | 128K | 2025-04 | HF |
| 4 | DeepSeek V3 | DeepSeek | 1370 | 88.5 | 128K | 2024-12 | HF |
| 5 | Llama 4 Maverick | Meta | 1350 | 87.5 | 1,000K | 2025-04 | HF |
| 6 | Llama 4 Scout | Meta | 1320 | 84.0 | 10,000K | 2025-04 | HF |
| 7 | Mistral Large 3 | Mistral AI | 1310 | 84.0 | 128K | 2025-07 | HF |
코딩 전용 종합지능 투표 Code Arena 기준
| 순위 | 모델명 | 제공사 | Code ELO | Text ELO | 출시일 |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 1548 | 1501 | 2026-03 |
| 2 | Claude Opus 4.6 Thinking | Anthropic | 1546 | 1502 | 2026-03 |
| 3 | Claude Sonnet 4.6 | Anthropic | 1521 | 1460 | 2026-03 |
| 4 | Claude Opus 4.5 Thinking | Anthropic | 1489 | 1474 | 2025-11 |
| 5 | Claude Opus 4.5 | Anthropic | 1465 | 1465 | 2025-11 |
| 6 | GPT-5.4 | OpenAI | 1457 | 1485 | 2026-03 |
| 7 | Gemini 3.1 Pro | 1454 | 1493 | 2026-03 | |
| 8 | GLM-5 | Zhipu AI | 1445 | 1435 | 2026-01 |
이미지 이해 / 멀티모달 종합지능 투표 Vision Arena 기준
| 순위 | 모델명 | 제공사 | Vision ELO | Text ELO | 출시일 |
|---|---|---|---|---|---|
| 1 | Gemini 3 Pro | 1290 | 1486 | 2026-01 | |
| 2 | Gemini 3.1 Pro | 1276 | 1493 | 2026-03 | |
| 3 | GPT-5.2 | OpenAI | 1275 | 1482 | 2026-02 |
| 4 | Gemini 3 Flash | 1274 | 1475 | 2026-01 | |
| 5 | Gemini 3 Flash Thinking | 1258 | 1455 | 2026-01 | |
| 6 | GPT-5.1 | OpenAI | 1248 | 1440 | 2026-01 |
| 7 | Gemini 2.5 Pro | 1247 | 1425 | 2025-03 | |
| 8 | Kimi K2.5 Thinking | Moonshot AI | 1246 | 1430 | 2026-02 |
이미지 생성 종합지능 투표 Text-to-Image Arena 기준
| 순위 | 모델명 | 제공사 | Image Gen ELO | 투표수 | 출시일 |
|---|---|---|---|---|---|
| 1 | Gemini 3.1 Flash Image | 1266 | 15,317 | 2026-03 | |
| 2 | GPT Image 1.5 | OpenAI | 1244 | 62,556 | 2026-02 |
| 3 | Gemini 3 Pro Image | 1235 | 58,168 | 2026-01 | |
| 4 | Grok Imagine | xAI | 1173 | 48,767 | 2025-12 |
| 5 | FLUX 2 Max | Black Forest Labs | 1167 | 66,012 | 2026-01 |
영상 생성 종합지능 투표 Text-to-Video Arena 기준
| 순위 | 모델명 | 제공사 | Video ELO | 투표수 | 출시일 |
|---|---|---|---|---|---|
| 1 | Veo 3.1 Audio (1080p) | 1381 | 5,537 | 2026-03 | |
| 2 | Sora 2 Pro | OpenAI | 1367 | 18,963 | 2026-01 |
| 3 | Grok Imagine Video | xAI | 1358 | 33,739 | 2025-12 |
평가 방식
- lmarena.ai Chatbot Arena Leaderboard (https://lmarena.ai/leaderboard)
- HuggingFace Open LLM Leaderboard v2 (open-source 모델 별도 분류)
- OpenRouter API (신규 모델 자동 감지)
새 모델 출시 시 자동으로 추가됩니다. 실제 성능은 사용 환경에 따라 다를 수 있습니다.