1. 가격 추세: 국산 모델이 ‘경쟁력’을 극한으로 끌어올렸고, 국제 업체는 계층별 공략 전략을 펼친다
-
국내 업체: 경량 모델의 ‘무료화’
- 바이두 클라우드 천판(Qwen) 플랫폼의 deepseek-v3는 입력 비용이 백만 토큰당 0.8위안, 출력 비용은 1.6위안으로, 사실상 ‘무료 제공’ 수준에 가깝다. 이는 고빈도이지만 복잡도가 낮은 작업(예: 고객센터 응답)에 적합하다.
- 텐센트 클라우드 혼위안-라이트(Hunyuan-Lite)는 아예 무료이며, 혼위안-스탠다드(Hunyuan-Standard)는 가격을 55% 인하했으나, 무료 버전은 동시 처리량(TPM/RPM 등)에 제한이 있을 수 있음을 유의해야 한다.
-
국제 업체: 계층별 가격 책정, 성능이 최우선
- OpenAI의 gpt-4o는 입력 비용이 백만 토큰당 18위안, 출력 비용은 72위안이다. 비용은 다소 높지만 GPT-4 수준의 성능을 갖추고 있어, 높은 정확도가 요구되는 시나리오(예: 과학 연구 분석)에 적합하다.
- Google의 Gemini 2.0 Flash-Lite는 입력 비용이 0.54위안, 출력 비용은 2.16위안으로, ‘저가 + 고처리량’을 핵심 가치로 삼아 대량 텍스트 생성(예: 여론 모니터링)에 최적화되어 있다.
-
가격 전쟁의 본질: 업체들은 ‘경량 버전으로 유입 → 고성능 버전으로 수익 창출’이라는 전략을 통해 시장 점유율을 확보하고 있다. 기업은 ‘저가 함정(low-price trap)’에 주의해야 한다—일부 모델은 장문 이해 능력이나 다중 라운드 대화 성능을 희생할 수 있다.
2. 가성비 비교: 누가 진짜 가성비의 왕일까? 누가 지능세일까?
| 모델 유형 | 대표 모델 | 적용 시나리오 | 가성비 공식 |
|---|---|---|---|
| 국산 경량형 | 바이두 클라우드 deepseek-v3 | 간단한 대화, 고빈도 질의응답 | 저비용 × 고동시 처리 지원 = 최적 해법 |
| 국산 고성능형 | 화산엔진 DeepSeek-R1 | 복잡한 논리 처리, 코드 생성 | GPT-3.5 수준 성능 × 가격은 1/9 수준 |
| 국제 가성비형 | Gemini 2.0 Flash | 다국어 번역, 짧은 텍스트 생성 | 저가 × 구글 생태계 호환성 |
| 국제 플래그십형 | Claude 3.5 Opus | 학술 연구, 장문 창작 | 고정확도 × 초고비용(출력 백만 토큰당 540위안) |
숨겨진 비용 주의사항:
- 동시 처리 제한: 예를 들어 TPM(분당 토큰 수) 및 RPM(분당 요청 수). 저가 모델은 처리량을 제한할 수 있으며, 추가 할당량 구매가 필요할 수 있다.
- 장문 처리 비용: 법률 계약서 분석처럼 38만 자에 달하는 초장문을 처리할 경우, 256k 컨텍스트를 지원하는 모델(예: 텐센트 혼위안-스탠다드-256k)을 선택해야 한다. 그렇지 않으면 분할 처리로 인해 비용이 두 배 이상 증가할 수 있다.
3. 모델 선정 노하우: 필요에 따라 정확히 매칭하라, 낭비는 금물
-
간단한 작업에는 ‘경량형’을 선택
- 예시: 이커머스 자동 응답, 기본 데이터 정제.
- 추천 모델: 바이두 클라우드 deepseek-v3(입력 백만 토큰당 0.8위안) 또는 Gemini 2.0 Flash-Lite(0.54위안).
-
복잡한 시나리오에는 ‘고성능형’을 사용
- 예시: 의료 보고서 작성, 코드 개발 보조.
- 추천 모델: 화산엔진 DeepSeek-R1(입력 백만 토큰당 2위안) 또는 Claude 3.5 Sonnet(21.6위안, 하지만 논리 추론 능력이 우수함).
-
장문 처리 시 ‘동시 처리 능력’을 우선 고려
- 핵심 지표: 높은 TPM/RPM을 지원하는 모델을 선택(예: 알리바바 통의천문 Qwen-Long). 제한으로 인한 서비스 중단을 방지해야 한다.
4. 가격 전쟁 뒤에 숨은 진실
-
비용 관리 전략: 업체들은 ‘경량 버전으로 유입 → 고성능 버전으로 수익 창출’ 전략을 통해 시장 점유율을 확보하고 있다. 기업은 ‘저가 함정’에 주의해야 한다—일부 모델은 장문 이해 능력이나 다중 라운드 대화 성능을 희생할 수 있다.
-
성능 차이: 복잡한 작업 처리 시 각 모델의 성능은 상이하므로, 기업은 실제 요구 사항에 맞는 모델을 신중히 선택해야 한다.
-
동시 처리 제한: 예를 들어 TPM(분당 토큰 수) 및 RPM(분당 요청 수). 저가 모델은 처리량을 제한할 수 있으며, 추가 할당량 구매가 필요할 수 있다.
5. 종합 대형 언어 모델(Large Language Model, LLM) API 가격표
다음은 주요 플랫폼에서 제공하는 대형 언어 모델(Large Language Model, LLM) API의 종합 가격표입니다. 표에는 플랫폼명, 백만 토큰당 입력·출력 비용(단위: 위안 ¥), 그리고 참고용 공식 링크가 포함되어 있습니다:
| 모델 | 플랫폼 | 입력 ¥/백만 토큰 | 출력 ¥/백만 토큰 | 링크 |
|---|---|---|---|---|
| DeepSeek-R1 | 바이트댄스 화산엔진(VolcEngine) | 2 | 8 | 바이트댄스 화산엔진 DeepSeek-R1 |
| deepseek-v3 | 바이트댄스 화산엔진(VolcEngine) | 1 | 4 | 바이트댄스 화산엔진 deepseek-v3 |
| DeepSeek-R1 | DeepSeek | 4 | 16 | DeepSeek-R1 |
| deepseek-v3 | DeepSeek | 2 | 8 | deepseek-v3 |
| DeepSeek-R1 | 실리콘플로우(SiliconFlow) | 4 | 16 | 실리콘플로우 DeepSeek-R1 |
| deepseek-v3 | 실리콘플로우(SiliconFlow) | 2 | 8 | 실리콘플로우 deepseek-v3 |
| DeepSeek-R1 | 바이두 클라우드 천판(Qwen) | 2 | 8 | 바이두 클라우드 천판 DeepSeek-R1 |
| deepseek-v3 | 바이두 클라우드 천판(Qwen) | 0.8 | 1.6 | 바이두 클라우드 천판 deepseek-v3 |
| gpt-4o | OpenAI | 18 | 72 | OpenAI GPT-4 |
| o1 | OpenAI | 108 | 432 | OpenAI o1 |
| o3-mini | OpenAI | 8 | 32 | OpenAI o3-mini |
| o1-mini | OpenAI | 8 | 32 | OpenAI o1-mini |
| Gemini 2.0 Flash | 0.72 | 2.88 | Google Gemini 2.0 Flash | |
| Gemini 2.0 Flash-Lite | 0.54 | 2.16 | Google Gemini 2.0 Flash-Lite | |
| grok-2 | x.ai | 14.4 | 72 | x.ai grok-2 |
| Claude 3.5 Sonnet | Anthropic | 21.6 | 108 | Anthropic Claude 3.5 Sonnet |
| Claude 3.5 Haiku | Anthropic | 7.2 | 28.8 | Anthropic Claude 3.5 Haiku |
| Claude 3.5 Opus | Anthropic | 108 | 540 | Anthropic Claude 3.5 Opus |
핵심 안내 사항:
- 가격 변동성: 가격은 지역, 이용량, 공급업체의 특정 서비스 계층 등에 따라 달라질 수 있다.
- 숨겨진 비용: 동시 처리 제한(TPM/RPM), 장문 처리 비용, API 호출 할당량 등 추가 비용 요소를 반드시 확인해야 한다.
- 성능과의 균형: 저비용 모델은 복잡한 작업 처리나 장문 컨텍스트 상황에서 한계를 보일 수 있다.
결론: 가격을 넘어서, ‘가치 밀도(Value Density)’를 주목하라
대형 언어 모델의 가격 전쟁은 겉보기 현상일 뿐이다. 기업은 ‘성능 × 비용 × 동시 처리 능력’ 이라는 삼각형의 균형을 종합적으로 고려해야 한다. 향후 MoE(Mixture of Experts) 아키텍처와 추론 최적화 기술(예: 텐센트의 TACO-LLM)이 보편화됨에 따라, 단위 토큰당 비용은 더욱 하락할 가능성이 높다. 그러나 잊지 말아야 할 것은: **‘저렴함 ≠ 적합함, 비쌈 ≠ 낭비’**라는 점이다. 기업의 실제 비즈니스 요구에 정확히 부합하는 모델이야말로 진정한 가성비의 왕이다!
(참고: 본 문서의 데이터는 2025년 2월 기준이며, 실제 가격은 각 업체의 최신 공지사항을 기준으로 합니다.)