Gemma 3n 미리보기 발표: 강력하고 효율적인 모바일 우선 AI

2025년 5월 20일
Lucas Gonzalez Product Manager
Rakesh Shivanna Principal Software Engineer

단일 클라우드 또는 데스크톱 가속기에서 실행할 수 있는 최첨단 개방형 모델 제품군인 Gemma 3Gemma 3 QAT의 출시 후, Google은 접근 가능한 AI에 대한 비전을 더욱 발전시키고 있습니다. Gemma 3는 개발자를 위한 강력한 기능을 제공했으며, 이제 그 비전을 사용자가 매일 사용하는 휴대폰, 태블릿, 노트북 등 기기에서 바로 작동하는 고성능 실시간 AI로 확장하고 있습니다.

차세대 온디바이스 AI를 구동하고 Gemini Nano의 기능을 발전시키는 등 다양한 애플리케이션을 지원하기 위해, Google은 새로운 최첨단 아키텍처를 설계했습니다. 이 차세대 기반은 Qualcomm Technologies, MediaTek, 삼성 시스템LSI와 같은 모바일 하드웨어 선도업체와의 긴밀한 협력을 통해 만들어졌으며, 초고속 멀티모달 AI에 최적화되어 개인적인 비공개 경험을 기기에서 바로 지원합니다.

Gemma 3n은 이 획기적인 공유 아키텍처를 기반으로 구축된 최초의 개방형 모델로, 개발자는 지금 바로 초기 미리보기를 통해 이 기술을 실험해 볼 수 있습니다. 이것과 동일한 고급 아키텍처는 차세대 Gemini Nano에도 적용되어 Google 앱과 온디바이스 생태계의 다양한 기능에 이러한 기능을 제공하며 올해 말 제공될 예정입니다. Gemma 3n을 사용하면 Android 및 Chrome과 같은 주요 플랫폼에 제공될 이 기반 위에서 개발을 시작할 수 있습니다.

Chatbot Arena Elo scores
이 차트는 챗봇 Arena Elo 점수에 따라 AI 모델의 순위를 매깁니다. 점수가 높을수록(상위 숫자) 사용자 선호도가 높다는 것을 의미합니다. Gemma 3n은 인기 있는 독점 모델과 개방형 모델 모두에서 높은 순위를 차지했습니다.

Gemma 3n은 RAM 사용량을 크게 줄여주는 레이어별 임베딩(PLE)이라는 Google DeepMind의 혁신 기술을 활용합니다. 원시 파라미터 수는 5B와 8B이지만, 이 혁신을 통해 모바일 기기에서 더 큰 모델을 실행하거나 클라우드에서 라이브 스트리밍할 때 메모리 오버헤드가 2B와 4B 모델과 비슷해져 2GB와 3GB의 동적 메모리 사용량만으로 모델을 작동할 수 있습니다. 자세한 내용은 설명서에서 확인하세요.

개발자는 Gemma 3n을 살펴봄으로써 Gemini Nano를 통해 Android 및 Chrome에서 사용할 수 있는 개방형 모델의 핵심 기능과 모바일 우선 아키텍처의 혁신 기술을 미리 살펴볼 수 있습니다.

이 게시물에서는 Gemma 3n의 새로운 기능, 책임 있는 개발에 대한 접근 방식, 지금 바로 미리보기를 이용할 수 있는 방법을 살펴봅니다.


Gemma 3n의 주요 기능

로컬에서 실행되는 빠르고 사용량이 적은 AI 경험을 위해 설계된 Gemma 3n은 다음과 같은 기능을 제공합니다.

  • 최적화된 온디바이스 성능 및 효율성: Gemma 3n은 모바일에서 약 1.5배 더 빠르게 응답하며, 레이어별 임베딩, KVC 공유, 고급 활성화 양자화와 같은 혁신을 통해 훨씬 뛰어난 품질(Gemma 3 4B 대비)을 달성하고 메모리 사용량을 줄였습니다.

  • 다용도 유연성: 4B 활성 메모리 사용량의 모델에 기본적으로 중첩된 최신 2B 활성 메모리 사용량 하위 모델이 포함되어 있습니다(MatFormer 학습을 통해). 그러면 별도의 모델을 호스팅하지 않고도 즉시 성능과 품질 사이의 균형을 동적으로 유연하게 맞출 수 있습니다. 또한 Gemma 3n에 여러 방식으로 조합하는 기능을 도입하여 특정 사용 사례에 최적인 4B 모델에서 하위 모델을 동적으로 생성하고 관련된 품질/지연 시간 사이의 균형을 맞출 수 있습니다. 이 연구에 대한 자세한 내용은 곧 발표될 기술 보고서를 기다려 주세요.

  • 개인 정보 보호 우선 및 오프라인 지원: 로컬 실행을 통해 인터넷 연결 없이도 사용자의 개인 정보를 보호하고 안정적으로 작동하는 기능을 사용할 수 있습니다.

  • 오디오를 통한 확장된 멀티모달 이해: Gemma 3n은 오디오, 텍스트, 이미지를 이해하고 처리할 수 있으며 동영상 이해력이 크게 향상되었습니다. 이 모델은 오디오 기능을 통해 높은 품질의 자동 음성 인식(스크립트 작성) 및 번역(음성을 번역된 텍스트로 변환)을 수행할 수 있습니다. 또한 이 모델은 여러 모달리티에 걸친 인터리브 입력을 허용하여 복잡한 멀티모달 상호작용을 이해할 수 있습니다(공개 구현 예정).

  • 향상된 다국어 기능: 특히 일본어, 독일어, 한국어, 스페인어, 프랑스어에서 향상된 다국어 성능을 제공합니다. WMT24++(ChrF)에서 50.1%와 같은 다국어 벤치마크에서 강력한 성능이 나타났습니다.
MMLU performance
이 차트는 Gemma 3n의 여러 방식으로 조합(사전 학습)하는 기능의 모델 크기 대비 MMLU 성능을 보여줍니다.

새로운 즉각적인 경험 제공

Gemma 3n은 개발자가 다음과 같이 하도록 지원하여 즉각적인 지능형 애플리케이션의 새로운 물결을 일으킬 것입니다.

  1. 사용자 환경의 실시간 시각 및 청각 신호를 이해하고 이에 반응하는 실시간 양방향 경험을 구축합니다.


2. 오디오, 이미지, 동영상, 텍스트 입력을 결합하여 더 깊은 이해와 문맥에 맞는 텍스트 생성을 강화합니다(모두 기기에서 비공개로 처리됨).


3. 실시간 음성 스크립트 작성, 번역, 풍부한 음성 중심 상호작용을 포함한 고급 오디오 중심 애플리케이션을 개발합니다.


개요 및 구축할 수 있는 경험의 유형은 다음과 같습니다.

Link to Youtube Video (visible only when JS is disabled)

책임감 있게, 함께 구축하기

책임감 있는 AI 개발을 위한 Google의 노력은 매우 중요합니다. Gemma 3n은 모든 Gemma 모델과 마찬가지로 엄격한 안전성 평가, 데이터 거버넌스, 안전 정책에 따른 미세 조정을 거쳤습니다. Google은 신중한 위험 평가를 통해 개방형 모델에 접근하며, AI 환경이 진화함에 따라 지속적으로 관행을 개선하고 있습니다.


시작하기: 지금 Gemma 3n 미리보기

오늘부터 미리보기를 통해 Gemma 3n을 만나볼 수 있습니다.


초기 액세스(지금 사용 가능):

  • Google AI Studio를 통한 클라우드 기반 탐색: 설정할 필요 없이 Google AI Studio의 브라우저에서 바로 Gemma 3n을 사용해 보세요. 텍스트 입력 기능을 즉시 살펴보세요.

  • Google AI Edge를 통한 온디바이스 개발: Google AI Edge는 로컬에서 Gemma 3n을 통합하려는 개발자를 위한 도구와 라이브러리를 제공합니다. 지금 바로 텍스트 및 이미지 이해/생성 기능을 시작할 수 있습니다.


Gemma 3n은 효율적인 최첨단 AI에 대한 액세스를 대중화하기 위한 다음 단계입니다. 오늘 미리보기를 시작으로 이 기술을 점진적으로 제공함에 따라 어떤 결과물을 만들어내실지 아주 기대됩니다.

5월 22일부터 io.google에서 이 발표와 모든 Google I/O 2025 업데이트를 살펴보세요.