3월 5일에 OpenAI가 GPT-5.4를 공개했다. GPT-5.4 Thinking, GPT-5.4 Pro 두 가지 버전이 같이 나왔다.
이번에 눈에 띄는 건 컨텍스트 윈도우가 100만 토큰으로 늘어난 것과, 네이티브 컴퓨터 유즈 기능이 들어간 것. 모델이 직접 마우스 클릭하고 키보드 입력해서 컴퓨터를 조작한다. OSWorld 벤치마크에서 75%를 찍었는데, 사람(72.4%)보다 높다. 브라우저 켜서 작업하고 스프레드시트 만지고 이런 걸 모델이 알아서 한다는 거다.
코딩 쪽은 GPT-5.3 Codex 때 이미 꽤 올라왔었는데, 5.4에서는 그걸 흡수하면서 더 범용적으로 쓸 수 있게 됐다. 추론 쪽도 ARC-AGI-2에서 52.9%에서 73.3%로 점프했다. 토큰 효율도 좋아져서 같은 문제를 더 적은 토큰으로 풀 수 있다고 한다.
API 가격은 인풋 $2.50/1M, 아웃풋 $15.00/1M. GPT-5.2 대비 인풋이 좀 올랐다. 27만 토큰 넘어가면 인풋 2배, 아웃풋 1.5배로 뛰니까 긴 컨텍스트 쓸 때는 비용 계산을 잘 해야 한다.
나는 지금 회사에서 Claude Code로 바이브 코딩하고, OpenRouter 통해서 Gemini Flash로 콘텐츠 생성 파이프라인을 돌리고 있다. 모델이 컴퓨터를 직접 쓸 수 있다는 건 결국 에이전트 자동화 범위가 넓어진다는 뜻이다. 지금 Cowork로 블로그 포스팅 자동화 같은 걸 하고 있는데, 이런 컴퓨터 유즈 기능이 안정화되면 더 복잡한 워크플로우도 자동화할 수 있을 것 같다.
다만 현실적으로 당장 갈아탈 이유는 크지 않다. Claude Code가 코딩 보조로는 여전히 잘 돌아가고, API 비용도 Gemini Flash가 압도적으로 싸다. 중요한 건 이 모델들이 경쟁하면서 가격이 계속 내려가고, 할 수 있는 일이 넓어지고 있다는 흐름 자체다.
모델 릴리즈 주기가 2주 단위로 돌아가는 세상이 됐다. 2월에만 해도 Claude Opus 4.6, Gemini 3.1 Pro, Grok 4.20, Qwen 3.5 등이 쏟아졌다. 이 속도면 특정 모델에 올인하는 건 리스크가 크고, 용도별로 나눠서 쓰는 게 맞다.
'AI' 카테고리의 다른 글
| WWDC26 애플 AI, 편리함 뒤의 잠금장치 (0) | 2026.06.01 |
|---|---|
| Gemini 에이전트, 편할수록 멍해진다 (0) | 2026.06.01 |
| 엔비디아 GTC 2026, AI 공장은 사용료 장사다 (0) | 2026.06.01 |
| 아마존, AI로 짠 코드에 시니어 승인 필수로 바꿨다 (0) | 2026.03.13 |
| AI로 앱 개발이 쉬워지면 구독 모델이 죽는다 (0) | 2026.03.10 |