📊 4가지 핵심 평가 차원
| 차원 | 테스트 중점 | 투표수 | 적용シーン |
|---|---|---|---|
| Text Arena | 대화, 추론, 글쓰기 | 수백만 회 | 일상 대화, 콘텐츠 제작 |
| WebDev Leaderboard | 웹 개발, 코드 생성 | 약 10만 회 | 프로그래밍 개발, 풀스택 |
| Vision Arena | 이미지 이해, 설명, 추론 | 58만 회 | 시각 분석, OCR 인식 |
| Text-to-Image Arena | 텍스트→이미지 생성 품질 | 수백만 회 | 크리에이티브 디자인, 이미지 생성 |
📝 Text Arena 텍스트 능력 랭킹
🏅 Top 5
| 순위 | 모델 | 회사 | Elo 점수 |
|---|---|---|---|
| 🥇 | Gemini-3-Pro | 1490 | |
| 🥈 | Grok-4.1-Thinking | xAI | 1477 |
| 🥉 | Gemini-3-Flash | 1471 | |
| 4 | Claude-Opus-4-5-Thinking-32K | Anthropic | 1469 |
| 5 | Grok-4.1 | xAI | 1466 |
💡 주요 인사이트
- Google이 텍스트 분야 장악: Gemini 3 시리즈가Top 3独占
- xAI 급부상: Grok 4.1 시리즈紧随
- Anthropic 안정적 발휘: Claude Opus는 안전성·신뢰성에定評
- 톱 모델 간 차이 축소: Top 10 Elo 모두 1400+ 시대
💻 WebDev Leaderboard 프로그래밍 개발 랭킹
🏅 Top 5
| 순위 | 모델 | 회사 | Elo 점수 |
|---|---|---|---|
| 🥇 | Claude-Opus-4-5-Thinking-32K | Anthropic | 1511 |
| 🥈 | GPT-5.2-High | OpenAI | 1481 |
| 🥉 | Claude-Opus-4-5 | Anthropic | 1479 |
| 4 | Gemini-3-Pro | 1468 | |
| 5 | Gemini-3-Flash | 1455 |
💡 주요 인사이트
- Anthropic 의외 우승: Claude Opus 시리즈 Top 2独占
- 개발자首选: Claude는 코드 로직, 디버깅, 복잡한 풀스택 통합에서卓越
- OpenAI 우위 유지: GPT-5.2 하이엔드版 2위
- Google 다소 뒤쳐짐: Gemini도强하지만 프로그래밍 분야서는暂时 뒤쳐짐
👁️ Vision Arena 시각 이해 랭킹
🏅 Top 5
| 순위 | 모델 | 회사 | Elo 점수 |
|---|---|---|---|
| 🥇 | Gemini-3-Pro | 1302 | |
| 🥈 | Gemini-3-Flash | 1274 | |
| 🥉 | Gemini-3-Flash-Thinking-Minimal | 1264 | |
| 4 | Gemini-2.5-Pro | 1249 | |
| 5 | GPT-5.1-High | OpenAI | 1247 |
💡 주요 인사이트
- Google 압도적 우위: Top 4 모두 Gemini!
- 시각의 王者: Gemini-3-Pro 이미지 세부 인식,复杂场景 이해, OCR에서最优
- 가성비之选: 경량版 Gemini-3-Flash도 2위
- OpenAI 추격 중: GPT-5.1 하이엔드版 5위
🎨 Text-to-Image Arena 이미지 생성 랭킹
🏅 Top 5
| 순위 | 모델 | 회사 | Elo 점수 |
|---|---|---|---|
| 🥇 | GPT-Image-1.5 | OpenAI | 1243 |
| 🥈 | Gemini-3-Pro-Image-Preview-2K | 1236 | |
| 🥉 | Gemini-3-Pro-Image-Preview | 1232 | |
| 4 | Flux-2-Max | Black Forest Labs | 1167 |
| 5 | Flux-2-Flex | Black Forest Labs | 1157 |
💡 주요 인사이트
- OpenAI 의외 우승: GPT-Image-1.5 이미지 세부, 리얼감, 프롬프트 충실도 최고
- Google紧随: Gemini 이미지 프리뷰版 2·3위
- 오픈소스台头: Flux 2 시리즈好調
- 국산 모델도 등장: 後半에 Tencent混元, ByteDance Seedream 등
📈 종합 요약: 2026 AI格局
🏆 각 분야王者
| 분야 | 최강 모델 | 회사 |
|---|---|---|
| 종합实力 | Google Gemini 3 시리즈 | |
| 프로그래밍 개발 | Claude Opus 시리즈 | Anthropic |
| 시각 이해 | Gemini-3-Pro | |
| 이미지 생성 | GPT-Image-1.5 | OpenAI |
🎯 선택 가이드
Google Gemini 3를 선택한다면:
- 강력한 텍스트 이해와 추론能力 필요
- 이미지·시각 관련 Task 자주 처리
- 종합 パフォーマンス最优 추구
Anthropic Claude를 선택한다면:
- 메인은 프로그래밍 개발
- 안전하고 신뢰성 있는 코드 생성 필요
- 풀스택 개발자
OpenAI GPT를 선택한다면:
- 이미지 생성 크리에이티브能力 필요
- GPT 시리즈 사용 경험에 익숙
- 안정적인 API 서비스 필요
xAI Grok를 선택한다면:
- 실시간 정보 획득 필요
- 유머 개성 있는 답변 스타일 선호
- 신흥 세력 시도
🔗 관련 리소스
💬 어떻게 생각하시나요? 자주 쓰는 AI 모델은 무엇인가요? 댓글로 경험을 공유해 주세요!