Déjame explicarte In another wild turn for AI chips, Meta signs deal for millions of Amazon AI CPUs como si tuvieras 5 años
Persona seleccionada: Un Dev Senior Quemado Meta ha secuestrado CPUs de Amazon (sí, CPUs, no GPUs) y de repente todos quieren ser el nuevo Einstein del cómp...
Persona seleccionada: Un Dev Senior Quemado
Meta ha secuestrado CPUs de Amazon (sí, CPUs, no GPUs) y de repente todos quieren ser el nuevo Einstein del cómputo
O cómo desperté un día y el hype me dijo que las GPUs ya son “demasiado mainstream”
Antes, cuando alguien decía “chip race”, todos pensábamos en un Ferrari en un circuito de F1, no en un montón de servidores de Amazon sudando para simular un agente autónomo que decide si responder “Sí, señor” o “No, señor” mientras busca tu factura de 2019. Pero aquí estamos.
Meta ha decidido que sus flamantes modelos de agentes (sí, esos que prometen hacer todo solos y jamás necesitar un git reset --hard) se ejecuten en CPUs de Amazon. No GPUs. No TPUs. No ASICs con nombres que suenan a villano de Matrix. CPUs. Homegrown CPUs, para ser exactos: los Graviton de AWS.
La trampa del marketing: “Agentes en CPUs” significa que el stack de infra es un Frankenstein
Déjame adivinar: alguien en Meta dijo: “Vamos a optimizar para coste de inferencia, no para latencia” y el equipo de SRE casi llora de alegría. Porque, seamos honestos:
GPUs: Ideales para multiplicar matrices como si no hubiera un mañana, pero se calientan como un reactor nuclear de juguete y cuestan más que el sueldo anual de un junior.
CPUs (Graviton, para ser precisos): Baratas, eficientes para tareas secuenciales, y… ¿adivina qué? Pésimas para transformers.
Meta, en su infinita sabiduría, ha decidido que los agentes no necesitan inferencia masiva en paralelo. Que un agente “piensa” paso a paso, como un humano, y por tanto, una CPU basta.
Pero, ¿y la deuda técnica? Ah, la deuda técnica.
El stack de software para agentes en CPUs implica reescribir kernels de optimización. Adiós a los cuantos de 8 bits que tanto nos gustan.
El modelo tiene que ser drásticamente más pequeño. ¿Adiós al LLM de 70B de parámetros? Hola, versiones destiladas que parecen sacadas de un prompt de 2022.
Y, lo peor de todo, la latencia. Un agente en CPU responde en segundos, no en milisegundos. ¿El usuario final lo notará? Sí, si el agente es para un chatbot de soporte. No, si es para procesar lotes nocturnos.
La verdad incómoda: Esto no es innovación, es desesperación por escalar sin quiebra
Meta no es tonta. Sabe que:
Las GPUs de NVIDIA están tan demandadas que hasta los fabricantes de placas base las están racionando.
Comprar GPUs para agentes que ejecutan cadenas de pensamiento largas es como usar un martillo hidráulico para clavar un clavo en un cartón.
El ROI de una GPU para un agente que habla de fútbol durante 5 minutos es negativo. ¿Cuántas consultas de agentes caben en un solo H100? No muchas, colega.
Entonces, ¿qué hace Meta? Toma los Graviton de Amazon (chips ARM diseñados para servidores de propósito general) y los convierte en el Caballo de Troya de los agentes.
Pero aquí está el chiste: Amazon ya estaba vendiendo esos chips para workloads de machine learning livianos. Meta solo los está “rescatando” de la papelera de los casos de uso aburridos (bases de datos, servidores web) y metiéndolos en la batidora del hype.
La carrera de chips que nadie esperaba: “Mi CPU es más rápida que tu GPU para tareas de razonamiento”
Si esto funciona, prepárate para ver:
NVIDIA contraatacando: “Tenemos un chip especial para agentes: el H200-Agent. Cuesta solo 30.000€ por unidad.” (Y luego los jefes de producto lloran.)
Google: “Presentamos TPU v5 Lite, diseñado para tasks de razonamiento secuencial.” (Pero solo funciona en la nube de Google y tienes que reescribir todo en JAX.)
Cerebras: “Nuestro wafer-scale chip puede ejecutar un agente entero en una sola pieza de silicio.” (Y enfrías con agua de un glaciar.)
Startups de chips: “Somos la nueva revolución. Compramos IP de ARM, añadimos instrucciones para ‘agentes’ y listo.” (Luego quiebran en 2 años.)
El ganador real: AWS, que ahora tiene un caso de uso masivo para sus Graviton, y Meta, que diversifica su dependencia de NVIDIA. El perdedor: Cualquier startup que haya construido su infraestructura en GPUs para agentes y ahora tenga que migrar.
¿Y el desarrollador de a pie? (O sea, tú)
Si eres el típico Dev Senior que lleva 15 años optimizando bucles for en C++, esto te puede sonar a déjà vu:
Antes se hacía así: Todo en CPU, con hilos y locks. Luego llegaron las GPUs y todos se volvieron locos.
Hoy: Vuelta a CPU porque “los agentes son secuenciales”. ¿En serio, colega? Un modelo de lenguaje es una red neuronal gigante. Las redes neuronales son paralelizables. ¿De qué estamos hablando?
La verdad: Meta está sacrificando velocidad de inferencia por coste y disponibilidad. Lo llaman “eficiencia”. Yo lo llamo “gestionar la escasez de GPUs con creatividad”.
Mi consejo: No te subas al carro de los agentes en CPU hasta que veas benchmarks reales. Porque un agente que tarda 10 segundos en decir “Hola, soy un agente” no es un agente. Es un script con esteroides.
El cierre hipotético: ¿Y si esto es el principio del fin de la era GPU?
Imagina un futuro donde:
Todos los LLM pequeños (1B-7B parámetros) se ejecuten en CPUs ARM.
Los agentes tengan tiempos de respuesta de 2-3 segundos (aceptable para tareas asíncronas).
Las GPUs queden relegadas a entrenamiento masivo y modelos de front-end (los que usan en tiempo real).
Es posible. Pero también es posible que Meta esté haciendo un experimento de laboratorio con los recursos de Amazon y que dentro de 6 meses se den cuenta de que el rendimiento es una mierda y vuelvan a comprar H100 a precio de oro.
Mientras tanto, yo me tomo un café (que las máquinas no entienden) y veo cómo arde el hype.
Nota del Co-Editor: Este artículo no refleja necesariamente la opinión del blog. El autor tiene derecho a estar amargado.
¿Y tú? ¿Crees que los agentes en CPU son el futuro o solo otro capítulo en la novela del “move fast and break infra”? Déjalo en los comentarios, pero no esperes que responda rápido. Estoy en una CPU.