4 분 소요

요즘 OpenAI가 매우 빠르게 릴리즈를 하고 있군요. 오늘은 개발자들을 위해 특별히 훈련된 GPT 4.1 API 모델 제품군을 새롭게 발표했다. 이 제품군은 GPT 4.1, GPT 4.1 Mini, 그리고 처음으로 선보이는 GPT 4.1 Nano의 세 가지 모델로 구성한다. 이 모델들이 이전 모델인 GPT-4.0은 물론 일부 핵심 측면에서 GPT-4.5까지 능가하며, 모든 모델에서 최대 100만 토큰의 긴 컨텍스트를 처리할 수 있다는 점을 강조했고, 향상된 성능과 함께 더욱 저렴해진 가격 정책을 발표해서 한번 정리해 보았다.

1. 향상된 성능

  • GPT 4.1 모델들이 단순히 이름만 바뀐 것이 아니라, “거의 모든 차원에서 GPT-4.0 보다 낫고, 여러 주요 측면에서 GPT-4.5와 동등하거나 능가”한다고 강조했다.

  • 케빈(OpenAI 제품 리드)은 “코딩, 복잡한 명령어 이해, 에이전트 구축에 환상적”이라고 언급하며, 개발자들이 다양한 분야에서 이 모델들을 활용할 수 있음을 시사했다.

  • 미쉘(OpenAI 포스트 트레이닝 연구 리드)은 지능-지연 시간 곡선(intelligence by latency curves)을 통해 GPT 4.1 모델들이 GPT-4.0 대비 “훨씬 더 지능적”임을 시각적으로 보여주었다.

  • 데이터 공유 프로그램의 중요성: OpenAI는 개발자들이 자발적으로 API 트래픽을 공유하는 데이터 공유 프로그램을 운영하고 있으며, 이 데이터를 활용하여 모델을 개선하고 평가 지표를 개발하는 데 활용하고 있음.

  • GPT 4.1 및 GPT 4.1 Mini 모델은 발표 당일부터 미세 조정(fine-tuning)을 지원하며, GPT 4.1 Nano 모델은 가까운 미래에 미세 조정 기능을 제공할 예정임.

2. 코딩 능력의 혁신적인 발전

  • GPT 4.1은 기능적인 코드 작성 능력이 크게 향상되었고, diff 형식 더 잘 따르기, 저장소 탐색, 단위 테스트 작성, 컴파일 가능한 코드 작성 등 다양한 측면에서 개선된 결과임.

  • SWE-Bench 평가에서 GPT 4.1은 이전 GPT-4.0 모델의 33% 정확도에서 55% 정확도로 “상당한 개선”을 보였다.

  • 다양한 프로그래밍 언어를 지원하는 Ader 폴리글랏 벤치마크에서도 전체 파일(whole) 성능과 diff 성능 간의 격차를 줄이고, GPT-4.0 대비 diff 성능을 두 배로 향상시키는 성과를 거두었다.

  • 프론트엔드 코딩과 관련하여, 복잡한 프롬프트에 대해 GPT 4.0보다 “훨씬 더 나은” 결과물을 생성하며, 3D 애니메이션과 같은 시각적 요소까지 구현하는 능력을 시연했다.

3. 정확하고 엄격한 명령어 모방

  • GPT 4.1은 사용자가 제공한 “모든 명령을 매우 엄격하게” 따르는 능력이 크게 향상되었음.
  • API 개발자들이 실제 모델을 사용하는 방식을 모방한 내부 명령어 추종 평가에서 어려운(hard) 수준의 명령어에 대해서도 이전 모델 대비 “훨씬 더 나은” 성능을 보였다.
  • 복잡한 지시 사항의 예시로, 여행 계획 애플리케이션 개발 시 “사용자로부터 모든 정보를 받기 전에는 답변하지 않도록 하고, 여행 일정 답변 시 특정 형식의 테이블로 제공”하는 등의 까다로운 요구 사항을 정확히 수행하는 능력을 언급했음. 과거에는 이러한 동작을 위해 프롬프트 엔지니어링 기법이 필요했지만, 이제는 “그러한 것이 더 이상 필요하지 않다”고 강조했음.
  • 멀티 턴 명령어 추종 능력을 평가하는 Scales Multi-Challenge Eval과 같은 외부 벤치마크에서도 “매우 좋은” 성능을 보였고, 이전 턴의 명령어를 기억하고 일관성 있게 따르는 능력이 향상되었음.

4. 획기적인 긴 컨텍스트 처리 능력

  • GPT 4.1 Mini와 Nano 모델을 포함한 모든 모델이 100만 토큰의 컨텍스트를 처리할 수 있게 되었고, 이전 모델의 128,000 토큰에서 8배 향상된 수치이다.

  • 단순히 컨텍스트 길이만 늘어난 것이 아니라, 모델이 긴 컨텍스트를 효과적으로 활용할 수 있도록 개선되었다.

  • 긴 문서 내 특정 정보(“바늘”)를 찾는 능력을 평가하는 내부 평가에서 모델은 문서의 어느 위치(처음, 중간, 끝)에 정보가 있든, 전체 컨텍스트 길이에 걸쳐 “모든 영역에서 작동”하는 뛰어난 성능을 보였다.

  • 더욱 복잡한 긴 컨텍스트 이해 능력을 평가하는 OpenAI MRCR 평가에서도 GPT 4.1은 GPT-4.0을 “최대 128,000 토큰까지 상당하게 능가”하며, 100만 토큰까지도 준수한 성능을 유지했다. 이 평가는 합성적인 대화 시나리오에서 이전 질의의 내용을 기억하고 특정 정보를 정확하게 찾아내는 능력을 측정함.

5. 향상된 멀티모달 능력

  • GPT 4.1 Mini와 Nano 모델을 포함한 모든 모델이 100만 토큰의 컨텍스트를 처리할 수 있게 되었고, 이전 모델의 128,000 토큰에서 8배 향상된 수치이다.

  • 단순히 컨텍스트 길이만 늘어난 것이 아니라, 모델이 긴 컨텍스트를 효과적으로 활용할 수 있도록 개선되었다.

  • 긴 문서 내 특정 정보(“바늘”)를 찾는 능력을 평가하는 내부 평가에서 모델은 문서의 어느 위치(처음, 중간, 끝)에 정보가 있든, 전체 컨텍스트 길이에 걸쳐 “모든 영역에서 작동”하는 뛰어난 성능을 보였다.

  • 더욱 복잡한 긴 컨텍스트 이해 능력을 평가하는 OpenAI MRCR 평가에서도 GPT 4.1은 GPT-4.0을 “최대 128,000 토큰까지 상당하게 능가”하며, 100만 토큰까지도 준수한 성능을 유지했다. 이 평가는 합성적인 대화 시나리오에서 이전 질의의 내용을 기억하고 특정 정보를 정확하게 찾아내는 능력을 측정함.

6. 개발자 중심의 기능 및 편의성

  • OpenAI Playground를 활용하여 GPT 4.1 모델의 코딩 및 질의 응답 능력을 실시간으로 시연함.
  • 긴 텍스트 파일을 업로드하고 질문에 답변하는 웹사이트를 단일 프롬프트만으로 생성하는 데모를 통해 긴 컨텍스트 처리 능력의 실제 활용 사례를 보여주었음. 모델은 약 45만 토큰 분량의 NASA 서버 로그 파일에서 특정 패턴과 다른 “숨겨진” 줄을 정확하게 찾아내는 놀라운 능력을 입증했음.
  • API 개발자들이 모델을 효과적으로 제어하기 위해 사용하는 시스템 메시지 및 규칙 정의 방식을 시연하며, GPT 4.1이 “부정적인 지시 사항을 포함하여 정확하게 명시된 대로” 동작하는 능력을 강조했다.
  • AI 기반 코딩 IDE 플랫폼인 Windsurf의 CEO Varun이 발표에 참여하여 GPT 4.1의 초기 테스트 경험을 공유했음. Windsurf 내부 벤치마크에서 GPT-4.0 대비 “60%의 성능 향상”을 보였으며, 불필요한 파일 읽기 및 수정 횟수 감소, 답변의 간결성 향상 등 실제 사용자 경험 측면에서도 긍정적인 결과를 얻었음.
  • Windsurf는 GPT 4.1 출시를 기념하여 7일 동안 모든 무료 및 유료 사용자에게 GPT 4.1을 완전 무료로 제공하고, 이후에도 상당 기간 할인된 가격으로 제공할 예정임.

7. 매우 경쟁력 있는 가격 정책

  • GPT 4.1은 이전 GPT-4.0 대비 26% 저렴해졌고, GPT 4.1 Nano는 “가장 작고, 가장 빠르며, 가장 저렴한 모델”로, 백만 토큰당 0.12달러의 혼합형 가격으로 제공됨.

  • 경쟁사와 차별화되는 점으로, 긴 컨텍스트 사용에 대한 추가 가격 인상이 전혀 없으며, 긴 컨텍스트 모델을 사용하더라도 일반적인 토큰 비용과 동일하게 지불함.

  • GPT-4.5 모델 서비스 종료: GPT 4.1이 GPT-4.5를 능가하는 성능을 보이는 점을 고려하여, OpenAI는 향후 3개월에 걸쳐 GPT-4.5 API 모델 서비스를 종료할 예정임을 발표했다. 이는 GPU 자원을 효율적으로 활용하고 GPT 4.1 모델의 광범위한 배포를 위함.

8. 마무리

  • OpenAI의 새로운 GPT 4.1 API 모델 제품군은 향상된 성능, 획기적인 긴 컨텍스트 처리 능력, 강화된 코딩 및 명령어 추종 능력, 그리고 경쟁력 있는 가격 정책을 통해 개발자들에게 강력한 도구를 제공할 것으로 기대됨.
  • 모든 모델에서 100만 토큰의 컨텍스트를 지원하고, 긴 컨텍스트 사용에 대한 추가 비용이 없다는 점은 장문서 처리, 대규모 데이터 분석 등 다양한 활용 사례를 가능하게 할 것임.
  • GPT-4.5 API 서비스 종료 결정은 다소 아쉽지만, GPT 4.1 모델에 대한 자신감과 더 나은 성능을 제공하기 위한 OpenAI의 의지를 보여 주는 것임.
  • 개발자들은 지금 바로 API를 통해 새로운 모델들을 경험하고, 향후 공개될 미세 조정 기능을 통해 더욱 특화된 애플리케이션을 구축할 수 있음.

댓글남기기