9 분 소요

구글 I/O ‘25 키노트에서 순다 피차이 CEO는 구글이 본격적인 ‘Gemini 시대’에 접어들었음을 선언하며, 이전보다 훨씬 빠른 속도로 최신 AI 모델과 연구 성과를 사용자 및 개발자에게 제공하고 있다고 밝혔다. 오늘은 구글 I/O ‘25 키노트를 핵심 요약을 해보자!

1. 구글 I/O 키노트 요약

  • Gemini 2.5 시대 개막:
    • Gemini 2.5 Pro·Flash가 각종 벤치마크 1‒2위를 석권, 코딩, 멀티모달, 롱 컨텍스트 능력 대폭 향상.
    • ‘DeepThink’ 모드로 복잡한 문제 해결력 극대화, 신뢰 테스터 대상 곧 공개 예정
    • 폭발적 확산: 월간 처리 토큰 480조(+50× YoY), Gemini API 개발자 700만 +, Vertex AI 사용량 40×, Gemini 앱 MAU 4억, AI Overviews MAU 15억.
  • 새로운 AI 경험
    • Gemini Live: 카메라 및 화면 공유 기반 실시간 도우미
    • Agent Mode: 복잡한 작업(아파트 검색 등) 자동화.
    • Google Beam(Starline 진화): 2D 화상통화를 실감 3D로 변환.
    • AI Mode 검색: Gemini 2.5로 구동되는 차세대 검색, 오늘부터 미국 출시.
  • 개발자 기능 강화 및 생태계 확대
    • 다중 화자 TTS, 사고 요약 및 예산으로 투명성과 비용 제어
    • 비동기 코딩 에이전트 Jules 베타, 초고속 텍스트 확산 Gemini Diffusion 공개
    • Imagen 4(이미지), Veo 3(비디오·오디오), Lyria 2(음악) 모델을 Vertex AI·Gemini 앱에 통합
    • Android XR 플랫폼 및 삼성 Moohan 헤드셋 및 AI 안경 발표.
  • 새 구독 플랜
    • Gemini AI Pro $19.99/월, Ultra $249.99/월(DeepThink·Veo 3·YouTube Premium 포함).

2. 더욱 더 발전한 Gemini 모델

  • Gemini 2.5 Pro는 LM 아레나 리더보드 모든 카테고리에서 1위를 차지했으며, 이전 세대 대비 ELO 점수가 300점 이상 향상되었음
  • 코딩 능력 크게 발전하여, 업데이트된 2.5 Pro는 Web Dev Arena에서 1위를 기록했고, 이전 버전보다 ELO 점수가 142점 높아졌음
  • Cursor와 같은 AI 코드 편집기에서 Gemini는 가장 빠르게 성장하는 모델로 자리 매김 했음
  • 흥미롭게도 Gemini는 포켓몬 블루 게임을 완료하여 API(Artificial Pokemon Intelligence) 달성에 한 걸음 더 다가섰다고 소개했음

3. 강력한 초고성능 인프라

  • 7세대 TPU Ironwood(포드당 42.5 EFLOPS)로 훈련 및 추론 비용은 줄이고, 속도는 높이고 올해 말 GCP 고객에게 제공할 예정
  • TPU를 포함한 인프라 우위는 모델 가격은 낮추면서도 초당 생성 토큰 수에서 Gemini가 LM 아레나 리더보드 상위 3자리를 차지하는 등 빠르고 효율적인 모델을 가능하게 함

4. AI 연구 프로젝트의 현실화

  • AI Overview 및 AI Mode : AI Overviews는 매월 15억명의 사용자 확보하고 있으며, AI Mode는 검색을 이을 큰 발전을 이루고 있음
  • Project Starline / Google Beam
    • 3D 비디오 통신 기술인 Project Starline이 ‘Google Beam’이라는 새로운 AI 우선 비디오 커뮤니케이션 플랫폼으로 발전했음.
    • Beam은 2D 비디오 스트림을 현실적인 3D 경험으로 변환하며, HP와의 협력을 통해 올해 말 초기 고객에게 첫 번째 Google Beam 장치가 제공될 예정임
  • Google Meet 실시간 번역: Starline의 기술은 Google Meet에도 적용되어 실시간 음성 번역 기능을 제공함. 예) 영어-스페인어 번역이 현재 구독자에게 제공되며, 더 많은 언어가 추가될 예정
  • Project Astra / Gemini Live:
    • 주변 세계를 이해하는 범용 AI 비서 프로젝트인 Astra의 카메라 및 화면 공유 기능이 Gemini Live에 통합되었음.
    • Android 및 iOS 사용자에게 오늘부터 제공함
  • Project Mariner / Computer Use:
    • 웹과 상호작용하고 작업을 수행할 수 있는 에이전트인 Project Mariner는 멀티태스킹(최대 10개 동시 작업)과 ‘Teach and Repeat’(한 번 학습 후 유사 작업 수행) 기능을 도입했음
    • Mariner의 Computer Use 기능은 Gemini API를 통해 개발자에게 제공되며, Automation Anywhere, UI Path 등이 이미 테스트 중임
  • A2A / MCP Support : 에이전트 간 통신 프로토콜인 A2A 제공하며, 이제 Gemini SDK는 MCP 도구와 호환됨
  • Agent Mode in Gemini App:
    • 에이전트 기능은 Gemini 앱의 ‘Agent Mode’를 통해 사용자가 아파트 검색과 같은 복잡한 작업을 수행하는 데 도움을 줌.
    • Zillow와 같은 사이트에서 조건에 맞는 매물을 찾고 투어 예약을 지원함.
    • Agent Mode 실험 버전은 곧 구독자에게 제공될 예정임

5. AI 경험의 개인화

  • ‘개인 컨텍스트(personal context)’를 통해 사용자의 Google 앱 전반에 걸친 관련 정보를 활용하여 Gemini 모델을 더욱 개인화하고 있음
  • Gmail의 ‘개인화된 스마트 답장’ 기능은 사용자의 이전 이메일, 드라이브 문서 등을 참조하여 사용자의 스타일과 톤에 맞는 답장을 생성함. 올여름 Gmail 구독자에게 제공될 예정.
  • 내가 자주 쓰는 단어나 패턴을 인식해서 이메일 답장을 내 말투로 작성해줌

6. Google DeepMind: Gemini 모델의 진화와 미래 연구

  • 데미스 하사시스는 Gemini 2.5 Pro가 세계 최고의 파운데이션 모델임을 재확인하며, 교육 전문가와 함께 구축한 LearnLM을 통합하여 학습 분야에서도 최고의 모델이 되었다고 밝혔음.

  • Gemini 2.5 Flash 업데이트

    • 속도 향상과 저비용으로 인기 있는 효율적인 모델인 Gemini Flash의 업데이트 버전이 공개했음.
    • 새로운 Flash는 추론, 코드, 긴 컨텍스트 전반에서 개선되어 LM 아레나 리더보드에서 2.5 Pro에 이어 2위를 차지했음.
    • Flash는 6월 초, Pro는 곧이어 정식 출시될 예정이며, Gemini App 에서 Preview 제공
  • Gemini 2.5 Pro DeepThink

    • 모델 성능을 극한까지 끌어올리는 ‘DeepThink’ 모드가 새롭게 소개되었음
    • DeepThink는 병렬 처리 기술 등 최신 연구를 활용하여 USA Mo 2025 (수학), Live Codebench (코딩) 등 어려운 벤치마크에서 뛰어난 성능을 보였음.
    • 안전성 평가 및 전문가 의견 수렴 후 Gemini API를 통해 신뢰할 수 있는 테스터에게 우선 제공될 예정
  • 월드 모델(World Model)과 로보틱스

    • Gemini를 단순히 멀티모달을 넘어 세계를 시뮬레이션하고 계획을 세우며 새로운 경험을 상상할 수 있는 ‘월드 모델’로 확장하는 연구가 진행 중
    • 로보틱스 분야에도 중요하며, 이미 로봇이 작업을 수행하고 새로운 작업에 적응하도록 학습시키는 특수 모델 ‘Gemini Robotics’가 개발되었음
  • Project Astra의 진화:

    • 작년에 처음 선보인 Project Astra는 비디오 이해, 화면 공유, 메모리 기능 등이 Gemini Live에 통합되고 있음.
    • 더 나아가 자연스러운 음성 출력, 향상된 메모리, 컴퓨터 제어 기능 등이 추가된 최신 프로토타입이 시연함.
    • Gemini Live, Search, Live API, Android XR 안경 등 다양한 형태로 제공될 예정임
  • 과학 연구 가속화:

    • AlphaProof (수학 올림피아드 문제 해결), AlphaFold 3 (모든 생명 분자의 구조 및 상호작용 예측), Isomorphic Labs (AI 기반 신약 개발) 등 AI를 활용한 과학적 발견이 가속화되고 있음
    • AlphaFold는 이미 전 세계 250만 명 이상의 연구자가 사용하고 있음

7. 개발자를 위한 Gemini

  • 향상된 텍스트-음성 변환(TTS)

    • 새로운 2.5 Flash와 함께, 업계 최초로 두 가지 음성에 대한 다중 화자 지원 기능을 갖춘 TTS 미리보기가 공개되었음
    • 향상된 Gemini 모델은 미묘한 뉘앙스를 포착하고 속삭이는 듯한 표현도 가능하며, 24개 이상의 언어 간 전환이 자연스럽고, Gemini API에서 오늘부터 사용 가능함
  • 강화된 보안 및 투명성: 간접 프롬프트 주입과 같은 보안 위협에 대한 보호 기능이 강화되었고, Gemini API 및 Vertex AI를 통해 모델의 사고 과정을 명확한 형식으로 제공하는 ‘사고 요약(thought summaries)’ 기능이 2.5 Pro 및 Flash에 포함됨.

  • 효율성 증대 및 비용 관리

    • 업데이트된 2.5 Flash는 동일 성능에 필요한 토큰 수를 줄여 22%의 효율성 향상을 달성했음. 습니다.
    • 비용 및 지연 시간 대비 품질을 제어할 수 있는 ‘사고 예산(thinking budgets)’ 기능이 2.5 Pro에도 적용될 예정
  • AI Studio 코딩 데모: 스케치 이미지를 기반으로 3D 애니메이션이 포함된 웹 앱을 코딩하는 시연이 있었음. Gemini의 멀티모달 이해 능력과 코딩 능력을 보여줌

  • 비동기 개발 에이전트 Jules: 버그 수정, 업데이트 등의 작업을 자율적으로 처리하는 비동기 코딩 에이전트 ‘Jules’가 공개 베타로 전환되었음

  • 실험적 텍스트 확산 모델인 Gemini Diffusion

    • 병렬 생성을 활용하여 매우 낮은 지연 시간을 달성하는 실험적인 텍스트 확산 모델 ‘Gemini Diffusion’이 소개되었음
    • 현재 가장 빠른 모델인 2.0 Flashlight보다 5배 빠르게 코드를 생성하면서도 유사한 성능을 유지함.

8. AI 모드와 개인화된 경험인 Google 검색의 혁신

  • AI Overviews는 이미 15억 명 이상의 월간 사용자를 확보했으며, 검색량 증가에 기여하고 있음

  • AI 모드 출시:

    • 더욱 발전된 추론 능력을 갖춘 완전히 새로운 AI 검색 경험인 ‘AI 모드’가 미국 사용자에게 오늘부터 제공됨.
    • AI 모드는 Gemini 2.5로 구동되며, 사용자의 복잡하고 긴 질문에 답하고 작업을 완료하는 데 도움을 줌
    • 개인 컨텍스트 통합 (Labs): 과거 검색 기록 및 Gmail과 같은 다른 Google 앱의 정보를 선택적으로 연결하여 더욱 개인화된 응답을 제공하고 올 여름 AI Mode에 추가됨.
  • 쿼리 팬아웃(Query Fan-out) 기술: 복잡한 질문을 하위 주제로 나누고 동시에 다수의 쿼리를 실행하여 웹 전체를 깊이 검색하고, 지식 그래프, 쇼핑 그래프, 실시간 지역 데이터 등 다양한 데이터세트를 활용함

  • 딥 서치(Deep Search) (Labs): 심층적인 조사가 필요할 때 수십에서 수백 개의 검색을 실행하여 전문가 수준의 보고서를 생성함

  • 복잡한 데이터 분석 및 시각화 (Labs):

    • 스포츠 통계나 금융 정보와 같은 복잡한 데이터를 분석하고 표나 그래프 형태로 시각화하여 제공함.
    • 올여름 스포츠 및 금융 질문에 대해 제공될 예정
  • 에이전트 기능 (Project Mariner 통합, Labs): 행사 티켓 구매, 레스토랑 예약, 지역 서비스 약속 등 사용자를 대신하여 작업을 수행함

  • 실시간 멀티모달 (Search Live, Labs): Project Astra의 실시간 기능을 AI 모드에 통합하여 카메라를 통해 사용자가 보고 있는 것을 이해하고 실시간으로 정보를 제공함

  • 향상된 쇼핑 경험 (Labs): Google 이미지의 시각적 영감과 500억 개 이상의 제품 목록을 보유한 쇼핑 그래프를 결합하여 개인화된 쇼핑 경험을 제공함

9. Gemini AI 어시스턴트의 진화

  • 개인 컨텍스트 확장: 검색 기록 외에도 Google 전반의 더 많은 개인 컨텍스트를 Gemini와 연결하여 고유한 도움을 받을 수 있게 됨.
  • 능동적인 지원: 사용자가 요청하기 전에 일정을 파악하고 맞춤형 퀴즈나 설명 동영상을 제공하는 등 능동적으로 지원함
  • Gemini Live 기능 확장: 카메라 및 화면 공유 기능이 Android 및 iOS의 Gemini 앱에 무료로 출시되며, 곧 캘린더, 지도, Keep, Tasks와 같은 앱과 연결될 예정
  • Deep Research 및 Canvas 업데이트:
    • 파일 업로드 기능이 추가되고, Google Drive 및 Gmail과의 연동이 예정되어 있음.
    • Canvas에서는 보고서를 웹페이지, 인포그래픽, 퀴즈, 팟캐스트 등으로 변환할 수 있음
  • Gemini in Chrome: 웹 브라우징 중 현재 페이지의 컨텍스트를 이해하여 도움을 주는 AI 어시스턴트 기능 제공

  • 차세대 생성 AI 미디어모델로 Vertex AI 확장

    • Imagen 4: 더 높은 품질의 이미지 생성

    • Veo 3: 오디오 및 음성을 활용한 고품질 비디오 생성
    • Lyria 2: 음악 생성을 통한 더욱 강력한 창의적 제어
    • Imagen 4 탑재: 최신 이미지 생성 모델인 Imagen 4가 Gemini 앱에 탑재되어 더욱 섬세하고 풍부한 색감의 이미지를 생성하며, 텍스트 및 타이포그래피 표현 능력이 크게 향상되었음. 기존 모델보다 10배 빠른 초고속 버전도 제공됨
    • Veo 3 공개:
      • 네이티브 오디오 생성 기능을 갖춘 최첨단 비디오 생성 모델 Veo 3가 발표되었음.
      • 사운드 효과, 배경음, 대화까지 생성하여 캐릭터가 말하는 비디오를 만들 수 있음
  • Flow : 차세대 스토리텔링을 위해 Veo 3 를 활용한 새로운 AI 영화 제작 도구
  • Gemini AI Pro ($19.99/월) : 기존 Gemini Advanced, Gemini AI Ultra ($249.99/월) : Gemini Deep Think, Veo 3 엑세스, 유튜브 프리미엄 포함, 30TB Google Drive 지원

10. Android와 물리적 세계: XR의 미래

  • Android XR 플랫폼
    • Gemini 시대를 위해 구축된 Android XR은 헤드셋부터 안경까지 광범위한 기기를 지원함.
    • 삼성 및 퀄컴과의 협력을 통해 개발되었으며, 수백 명의 개발자가 이미 플랫폼용으로 빌드하고 있음
  • Samsung Project Moohan (헤드셋): 첫 번째 Android XR 기기로, 무한한 화면에서 앱을 탐색하고 Gemini와 상호작용할 수 있음. 올해 말 구매 가능.
  • Android XR 안경
    • 가볍고 하루 종일 착용 가능하도록 설계되었으며, 카메라, 마이크, 스피커, 선택적 인렌즈 디스플레이를 통해 Gemini가 사용자의 주변 환경을 이해하고 상호 작용함.
    • 실제 안경을 착용한 실시간 데모가 진행되어 커피숍 이름 기억, 사진 검색, 길 안내, 실시간 번역 등의 기능을 선보였음.
    • 새로운 글래스 파트너십: Gentle Monster와 Warby Parker가 Android XR 기반 안경을 제작하는 첫 번째 안경 파트너로 발표되었음
  • Firesat: 위성 이미지와 AI를 사용하여 산불을 거의 실시간으로 감지하는 시스템으로, 기존 12시간에서 20분으로 업데이트 주기를 단축하는 것을 목표로 함.
  • Wing 드론 배송: 허리케인 발생 시 월마트, 적십자사와 협력하여 구호품을 드론으로 배송하는 데 AI가 활용되었음.

10. 결론

  • 순다 피차이(Sundar Pichai) CEO는 키노트에서 AI가 95번 언급되었다고 재치있게 소개하며, AI 기술이 사회에 기여하는 사례들을 많이 나타내고 있다고 강조했음.
  • 구글은 Gemini 2.5와 TPU Ironwood로 AI 성능과 속도를 끌어올리며, 검색·모바일·XR·개발툴 전반에 ‘에이전트화 된 경험을 대규모로 출시했음
  • 털시(Tulsi)는 개발자들이 Gemini 2.5를 더 쉽게 활용할 수 있도록 향상된 텍스트-음성 변환(TTS), 강화된 보안 및 투명성과 효율성 증대 및 비용 관리, AI Studio의 코딩 데모 및 비동기 코딩 에이전트 Jules 등 개선된 기능들을 소개했음
  • 죠시(Josh)는 Gemini 앱을 가장 개인적이고, 능동적이며, 강력한 AI 어시스턴트로 만들겠다는 목표를 밝혔음
  • 쉬람(Shiram)은 Android가 AI를 경험하는 최고의 플랫폼이며, Gemini의 혁신이 곧 Android에 적용될 것이라고 말했음. Gemini는 시계, 자동차 대시보드, TV 등 다양한 Android 기기로 확장될 예정임
  • 순다 피차이 CEO는 차세대 로봇, 질병 치료, 오류 수정 양자 컴퓨터, 완전 자율 주행 차량 등이 수십 년이 아닌 수년 내에 현실이 될 수 있다고 강조하며, 기술이 삶을 개선하고 영감을 주는 힘에 대한 기대를 표하며 키노트를 마쳤음.

11. 참고

댓글남기기