Google AI 인프라의 미래: 에이전틱 시대를 위한 확장

- 8세대 TPU(TPU 8t/TPU 8i)는 학습 및 추론 성능을 크게 개선하여 복잡한 에이전틱 워크플로우를 지원
- NVIDIA Vera Rubin 기반 A5X와 Axion N4A CPU는 다양한 AI 워크로드에 최적화된 선택지를 제공
- Virgo Network와 KV 캐시 서브시스템은 대규모 AI 워크로드의 확장성과 효율성을 강화
- 본 아티클의 원문은 2026년 4월 23일 Google Cloud 블로그(영문)에 게재되었습니다.
- * *
AI는 질문에 답하는 수준을 넘어 추론하고 행동하는 단계로 진화하고 있습니다. 오늘날의 에이전틱 시대(agentic era)를 선도하고자 하는 기업에는 이러한 새로운 요구사항에 맞춰 설계되고 최적화된 컴퓨팅 인프라가 필요합니다. 오늘 Google Cloud Next에서 우리는 여러분이 더 빠르게 혁신하고, 매력적인 사용자 및 고객 경험을 제공하며, 비용과 에너지 효율을 최적화할 수 있도록 돕는 새로운 AI 인프라 기능들을 대규모로 선보입니다.
**에이전틱 인텔리전스로의 전환**
에이전틱 시대에는 단 하나의 의도가 연쇄 반응을 일으킵니다. 단순한 채팅과 달리, 메인 AI 에이전트는 목표를 세부 작업으로 분해하여 이를 수행할 전문 에이전트 그룹에 할당합니다. 이 에이전트들은 서로 협력하고, 상태를 유지하며, 강화 학습을 활용해 실시간으로 결과물을 만들어냅니다.
이 과정은 상호작용당 지능의 밀도를 높여주지만, 동시에 기존 아키텍처로는 비용 급증이나 성능 병목 현상 없이 감당하기 어려운 복잡성을 초래합니다. 효율적이고 효과적으로 확장하기 위해서는 파편화된 부품과 기술을 수동으로 통합하는 방식에서 벗어나야 합니다. 똑똑하고 빠르며, 확장 가능하고 비용 효율적인 에이전틱 경험을 제공하기 위해서는 전용 하드웨어, 오픈 소프트웨어, 유연한 소비 모델을 아우르는 통합 인프라 스택이 필요합니다.
Google의 AI Hypercomputer는 에이전틱 시대를 위해 구축되고 최적화된 AI 전용 인프라로, 이러한 새로운 요구사항을 충족하도록 설계되었습니다. 이는 Google의 플래그십 모델인 Gemini, 소비자용 AI 서비스, 그리고 기업용 AI 솔루션을 뒷받침하는 것과 동일한 토대입니다. 오늘 우리는 다음과 같은 AI 인프라 포트폴리오의 대대적인 확장을 발표합니다.
- **TPU 8t 및 TPU 8i:** Google의 8세대 TPU
- **A5X 베어메탈 인스턴스:** NVIDIA Vera Rubin NVL72 기반
- **Axion N4A VM:** Google 커스텀 Axion Arm 기반 CPU 탑재
- **Google Compute Engine 4세대 VM:** Intel 및 AMD x86 기반 CPU 탑재
- **Virgo Network:** AI 워크로드를 위한 혁신적인 데이터 센터 패브릭
- **Google Cloud Managed Lustre:** 고성능 병렬 파일 시스템
- **Z4M VM:** 오픈 병렬 파일 시스템을 위한 대용량 로컬 SSD 스토리지 및 RDMA 지원
- **전용 KV 캐시(KV Cache) 확장형 스토리지 서브시스템**
- **TPU용 네이티브 PyTorch 지원**
- **에이전트 네이티브 워크로드 오케스트레이션을 위한 새로운 GKE 기능**

이러한 기능들이 결합되어 모델 및 복잡한 에이전틱 워크플로의 개발 속도를 높여줄 것입니다. 이를 통해 혁신을 가속화하고, 고객에게 유용하고 응답성이 뛰어난 서비스를 제공하는 동시에, 대규모 환경에서도 비용을 절감하고 에너지를 책임감 있게 사용할 수 있습니다.
조금 더 자세히 살펴보겠습니다.
**에이전틱 AI를 위해 맞춤 설계된 8세대 TPU 시스템 발표**
오늘 우리는 8세대 텐서 프로세싱 유닛(TPU)을 발표하게 되어 기쁘게 생각합니다. 이번 세대에는 처음으로 두 개의 서로 다른 칩과 전문화된 시스템이 포함되었으며, 에이전틱 시대를 위해 특별히 설계되었습니다.
- **TPU 8t:** 고처리량(high-throughput) AI 워크로드에 최적화된 학습용 강력한 엔진입니다. 이전 세대보다 약 3배 높은 컴퓨팅 성능을 제공하여 거대 모델의 학습 기간을 획기적으로 단축함으로써 AI 개발의 규모를 재정의합니다. 단일 슈퍼포드(superpod)에 9,600개의 칩을 탑재하여 121 엑사플롭스(exaflops)의 연산 능력과 고속 상호 연결(ICI)로 연결된 2페타바이트의 공유 메모리를 제공합니다. 이 방대한 컴퓨팅 자원과 통합 메모리, 그리고 두 배로 늘어난 ICI 대역폭은 가장 복잡한 모델조차 선형에 가까운 확장성과 최대의 시스템 활용률을 달성하도록 돕습니다. 이제 Pathways와 JAX로 조율되는 단일 클러스터 내 100만 개 이상의 TPU 칩을 통해 수개월이 걸리던 학습을 수주 만에 끝낼 수 있습니다.
- **TPU 8i:** 인퍼런스 및 강화 학습(RL)을 위한 혁신적인 추론 시스템입니다. 에이전틱 워크플로와 전문가 혼합(MoE) 모델에 필요한 초저지연성을 제공하도록 설계되었습니다. 온칩 SRAM을 384MB로 3배 늘리고 고대역폭 메모리(HBM)를 288GB로 증설하여 메모리 벽(memory wall)을 허물었으며, 방대한 **KV 캐시**를 온전히 실리콘 위에 호스팅할 수 있습니다. 또한 ICI 대역폭을 19.2Tb/s로 두 배 늘리고 ICI 네트워크 직경을 50% 이상 줄였으며, 전용 집합 통신 가속 엔진(CAE)을 도입하여 온칩 지연 시간을 최대 5배까지 단축함으로써 고동시성 요청 시의 렉을 최소화했습니다. 이러한 설계를 통해 TPU 8i는 이전 세대보다 인퍼런스당 비용 효율성을 80% 향상시켜, 빠르고 인터랙티브한 사용자 경험을 경제적으로 구현합니다.
**TPU 8t**와 **TPU 8i**는 곧 클라우드 고객들에게 제공될 예정입니다. 아키텍처에 대한 자세한 내용은 심층 분석 자료를 통해 확인해 보시기 바랍니다.
**NVIDIA Vera Rubin 플랫폼 기반의 A5X**
우리는 모든 상황에 맞는 단 하나의 정답은 없다는 점을 잘 알고 있습니다. 고객마다 워크로드와 요구사항, 사용 사례가 다르기 때문입니다. 이에 Google은 NVIDIA와 긴밀히 협력하여 최신 GPU 플랫폼을 Google Cloud에서 매우 안정적이고 확장 가능한 서비스로 제공하고 있습니다. 우리는 올해 말 출시 예정인 차세대 Vera Rubin 플랫폼 기반의 인스턴스를 가장 먼저 제공하는 파트너 중 하나가 될 것입니다.
또한 Open Compute Project를 통해 NVIDIA와 함께 오픈 소스 Falcon 네트워킹 프로토콜을 공동 설계하며 신뢰할 수 있는 전송 프로토콜의 지평을 넓히고 있습니다. A5X는 Falcon의 다양한 혁신적 개념을 구현할 예정입니다.
예를 들어, Thinking Machine Labs는 Google의 NVIDIA 기반 인프라를 활용하여 전문 사례를 위한 강화 학습 및 미세 조정(fine-tuning)용 오픈 플랫폼인 Tinker를 구동하고 있으며, Google AI Hypercomputer를 통해 2배 이상 빠른 학습 및 서비스 속도를 달성했습니다.
Axion, Intel, AMD를 통한 에이전틱 로직 및 강화 학습 가속
GPU와 TPU가 AI 모델의 학습과 서비스에 탁월하다면, 핵심 AI 모델을 둘러싼 복잡한 로직, 도구 호출(tool-calls), 피드백 루프를 처리하기 위해서는 고성능 CPU 기반 서비스가 이를 뒷받침해야 합니다. Google의 새로운 Axion 기반 N4A CPU 인스턴스는 이러한 에이전트 런타임에 대해 탁월한 가성비를 제공합니다. 실제로 Google Axion N4A 기반의 GKE Agent Sandbox는 타 하이퍼스케일러의 에이전트 워크로드 대비 최대 30% 더 나은 가성비를 실현합니다. 이러한 효율성은 Intel 및 AMD의 최신 x86 인스턴스를 탑재한 4세대 Compute Engine VM 제품군을 포함한 전체 포트폴리오로 확장됩니다. 이들은 RL 보상 계산, 에이전트 오케스트레이션, 중첩 시각화와 같은 광범위한 강화 학습(RL) 태스크에 최적화되어 모든 AI 워크로드에 최적의 역량을 제공합니다.
데이터 센터급 스케일아웃 패브릭을 위한 Virgo Network
AI Hypercomputer의 일부인 Virgo Network는 현대적인 대규모 AI 워크로드의 까다로운 요구사항을 충족하도록 설계되었습니다. 이전 세대보다 대역폭이 4배 향상된 통합 패브릭(collapsed fabric) 아키텍처는 '확장 비용(scaling tax)'을 제거하여 경이로운 수준의 피크 컴퓨팅 파워를 제공합니다. 이러한 용량 덕분에 가장 야심 찬 AI 워크로드도 선형에 가까운 효율로 확장할 수 있습니다.
- 초대형 클러스터링: Virgo Network와 TPU 8t를 통해 단일 데이터 센터 내의 단일 패브릭에 134,000개의 TPU를 연결할 수 있으며, 여러 데이터 센터 사이트에 걸쳐 100만 개 이상의 TPU를 하나의 학습 클러스터로 묶을 수 있습니다. 이는 전 세계에 분산된 인프라를 하나의 매끄러운 슈퍼컴퓨터로 전환하는 것과 같습니다.
- GPU 지원 확장: Virgo Network는 A5X(NVIDIA Vera Rubin NVL72 기반)에도 적용되어 단일 데이터 센터 내 최대 80,000개의 GPU, 여러 사이트에 걸쳐 최대 960,000개의 GPU 연결을 지원합니다.
스토리지: 데이터 병목 현상의 최소화
거대한 컴퓨팅 클러스터의 효율은 데이터를 공급하는 스토리지 시스템의 성능에 좌우됩니다. 컴퓨팅 속도가 빨라지는 동안 스토리지가 병목 지점이 되지 않도록, 우리는 다음과 같은 네 가지 핵심 스토리지 혁신을 제공합니다.
- **학습 및 인퍼런스 가속**: Google Cloud Managed Lustre는 이제 작년보다 10배, 타 하이퍼스케일러보다 최대 20배 빠른 10TB/s의 대역폭을 제공합니다. 용량 또한 80페타바이트로 늘어났으며, 이는 새로운 C4NX 인스턴스와 Hyperdisk Exapools 덕분에 가능해졌습니다.
- **지연 시간 최소화**: Managed Lustre는 새로운 TPUDirect 및 RDMA를 활용하여 데이터가 호스트를 거치지 않고 가속기로 직접 이동하게 합니다. 이러한 처리 오버헤드 제거를 통해 AI 에이전트는 사용자가 원하는 즉각적인 속도로 응답할 수 있습니다.
- **최대 학습 가동률 유지**: Google Cloud Storage의 Rapid Buckets는 1밀리초 미만의 지연 시간과 초당 2,000만 건의 연산 처리를 통해 객체 스토리지를 혁신합니다. 이를 통해 대규모 학습 체크포인트 생성 및 복구가 거의 즉각적으로 이루어지며, 가속기의 가동률을 95% 이상으로 유지하여 학습 주기를 앞당기고 귀중한 TPU/GPU 자원을 효율적으로 사용하게 합니다.
- **커스텀 솔루션 구축**: Vast Data나 Sycomp와 같은 신뢰할 수 있는 병렬 파일 시스템을 통합하고자 하는 ISV 및 조직을 위해 Z4M 인스턴스를 출시합니다. 각 Z4M 인스턴스는 최대 168TiB의 로컬 SSD 용량까지 확장 가능하며, 수천 대 규모의 RDMA 클러스터에 배포될 수 있습니다.
이러한 새로운 스토리지 옵션은 종합적인 스토리지 포트폴리오를 제공하며, 각 사용 사례에 최적화된 스토리지 서비스를 통해 AI Hypercomputer 스택의 강력한 성능을 온전히 활용할 수 있도록 지원합니다.
GKE: 에이전트 네이티브 워크로드를 위한 오케스트레이션
에이전틱 시대에 지능의 효율성은 곧 확장 속도에 달려 있습니다. 이에 우리는 GKE를 에이전트 네이티브 워크로드를 위한 최고의 오케스트레이션 엔진으로 탈바꿈시켰습니다.
#### 전체 스택에 걸친 지연 시간 단축
기민한 에이전트 응답을 지원하기 위해 초기 구동 및 확장 프로세스의 모든 밀리초를 최적화했습니다. GKE는 수요 급증에 인프라가 대응하는 방식을 효율화하여 사용자가 시스템에 접속하는 즉시 에이전트가 준비되도록 보장합니다.
- **노드 및 포드(Pod) 시작 가속**: GKE 노드 시작 속도가 최대 4배 빨라졌으며, 포드 시작 시간은 최대 80% 단축되었습니다.
- **신속한 모델 로딩**: run:AI Model Streamer와 Google Cloud Storage의 Rapid Cache를 활용하여 모델 로딩 속도를 5배 높임으로써 기존의 스토리지 병목을 제거했습니다.
#### AI 기반 인퍼런스 게이트웨이를 통한 지능형 라우팅
작년에 도입된 GKE Inference Gateway를 기반으로, 대규모 서비스의 복잡성을 해결하기 위해 'AI를 위한 AI' 기술을 적용하고 있습니다.
Inference Gateway의 새로운 예측형 지연 시간 부스트(predictive latency boost)는 단순한 휴리스틱 추측 대신 머신러닝 기반의 실시간 용량 인지 라우팅으로 대체됩니다. 이러한 지능형 오케스트레이션은 수동 튜닝 없이도 첫 번째 토큰 생성 시간(TTFT) 지연을 70% 이상 단축합니다. 이는 비즈니스 측면에서 더 자연스러운 음성 대화와 매끄러운 실시간 상호작용으로 직결됩니다.
또한 Inference Gateway는 최근 Cloud Native Computing Foundation(CNCF)샌드박스 프로젝트로 채택된 쿠버네티스 네이티브 고성능 분산 LLM 인퍼런스 프레임워크인 llm-d와 함께 배포될 수 있습니다. Google Cloud는 Red Hat, IBM Research, CoreWeave, NVIDIA와 함께 llm-d의 창립 기여자로서 '어떤 모델, 어떤 가속기, 어떤 클라우드든 상관없는' 업계의 명확한 비전을 수립하는 데 동참하고 있습니다.

**전체 AI 라이프사이클을 위한 개방형 소프트웨어 생태계**
하드웨어는 함께 설계된 소프트웨어를 통해 그 잠재력을 온전히 발휘합니다. AI Hypercomputer는 JAX, PyTorch, vLLM과 같이 업계에서 가장 널리 쓰이는 프레임워크에 대해 최적화된 네이티브 지원을 제공함으로써 엔지니어들이 더 빠르게 업무를 진행할 수 있도록 돕습니다. 이러한 개방형 소프트웨어 레이어는 개발과 배포 사이의 마찰을 줄여주며, 이는 곧 시장 출시 시간 단축과 더 나은 자원 효율성으로 이어집니다.
현재 우리는 일부 고객을 대상으로 TPU용 네이티브 PyTorch 지원 기능인 TorchTPU의 프리뷰를 진행하고 있습니다. TorchTPU를 사용하면 Eager Mode와 같은 네이티브 PyTorch 기능을 완벽하게 지원받으며 모델을 TPU에서 있는 그대로 실행할 수 있습니다. 여기에 TPU 기반의 강력한 vLLM 지원까지 더해진 우리의 메시지는 명확합니다. Google은 언제나 개방성과 고객의 선택권을 최우선으로 하여 시스템을 구축한다는 것입니다.
에이전틱 성장을 위한 토대
에이전틱 시대에 빠르고 비용 효율적으로 혁신하기 위해서는 성능이나 선택권을 타협하지 않는 통합 시스템이 필요합니다. 그것이 바로 AI Hypercomputer가 제공하는 가치입니다. 실리콘부터 소프트웨어까지 모든 레이어를 함께 설계함으로써 통합의 부담을 제거하고, 여러분의 팀이 비즈니스를 발전시키는 데만 집중할 수 있도록 했습니다.
또한 AI Hypercomputer는 Google의 모든 상위 레벨 서비스 생태계를 뒷받침하는 강력한 토대 역할을 합니다. 이 통합 스택은 Gemini Enterprise부터 Gemini Enterprise Agent Platform까지 모든 서비스를 구동하며, 이러한 인프라의 혁신이 비즈니스 가치로 직접 연결되도록 보장합니다. 서버리스 학습 서비스나 새로운 Managed RL API와 같은 완전 관리형 서비스를 활용하여, AI Hypercomputer의 압도적인 성능 향상을 바탕으로 여러분의 비즈니스 로직에 맞게 Gemini를 커스터마이징하고 정교한 에이전트 기반 솔루션을 제공할 수 있습니다.
업데이트되고 확장된 이 AI 플랫폼을 통해 여러분이 만들어갈 다음 혁신을 기대하겠습니다.
게시 위치