Cada prompt en ChatGPT gasta 0,0003 kWh y 0,38 mL
Si te has preguntado cuanta electricidad consume cada prompt, ya tenemos respuestas y aquí te las detallo.
El impacto medioambiental de cada prompt que ejecutamos en una IA consume:
- Gemini: 0,00024 kWh de electricidad y 0,26ml de agua.
- ChatGPT: 0,0003 kWh de electricidad y 0,38ml de agua.
La misma energía que una búsqueda en Google en 2008 y 6 gotas de agua.
Parece que está mejorando: Google informa de una reducción de 33 veces en el consumo energético por prompt en un año.
Estas cifras coinciden con mediciones directas independientes: 0,00004 kWh por 400 tokens en Llama 3.3 70B en un nodo H100.
No se sabe cuánta energía se necesita para entrenar estos modelos, aunque se estima que GPT-4 requirió algo más de 500.000 kWh, aproximadamente lo que consume un Boeing 737 en 18 horas de vuelo.
Midiendo el impacto medioambiental de la IA
La adopción masiva de modelos de inteligencia artificial generativa (como los grandes modelos de lenguaje, LLMs) ha incrementado el enfoque en el impacto medioambiental de la inferencia – es decir, el uso de un modelo de IA entrenado para generar predicciones, texto o imágenes en respuesta a las consultas de los usuarios. Hasta ahora, los datos detallados de consumo energético y emisiones durante la inferencia eran limitados, especialmente desde la perspectiva de proveedores a gran escala.
Por ello, Google ha llevado a cabo un estudio exhaustivo para cuantificar la huella ambiental de servir modelos de IA en producción, presentando una metodología integral para medir la energía consumida, las emisiones de carbono equivalentes (CO2e) generadas y el uso de agua asociado a cada inferencia. Sus hallazgos revelan que, gracias a diversas optimizaciones, una consulta típica al modelo generativo Gemini consume aproximadamente 0,24 Wh de energía eléctrica, emite unos 0,03 gramos de CO2 equivalente y utiliza ~0,26 mL de agua, unas cifras notablemente inferiores a muchas estimaciones públicas previas.
De hecho, energéticamente cada pregunta al asistente de IA equivale, grosso modo, a mantener encendido un televisor durante menos de 9 segundos (y esos 0,26 mL de agua corresponden a apenas cinco gotas de agua). En este post exploramos cómo se han obtenido estas métricas, las metodologías de medición empleadas, el papel del hardware especializado en la eficiencia, la influencia del tamaño de los modelos en su huella, y las estrategias de Google para reducir el impacto medioambiental de la IA a gran escala, comparando cuando sea relevante con enfoques tradicionales o menos optimizados.
[CO2e: “dióxido de carbono equivalente”, métrica que unifica en CO2 el efecto de varios gases de invernadero]
Metodología para medir energía y emisiones en la inferencia de IA
Medir con precisión la huella energética de la inferencia no es trivial, especialmente en entornos reales de gran escala. Google desarrolló una metodología integral o “full-stack” que tiene en cuenta todos los factores materiales en el consumo de recursos al servir modelos de IA en producción. A diferencia de muchos cálculos simplificados (que suelen medir solo el consumo activo del chip de IA), este enfoque integral define un perímetro de medición amplio, incluyendo componentes que a menudo se pasan por alto:
- Consumo activo del acelerador de IA: la energía consumida por los chips especializados (como TPUs o GPUs) durante el cálculo de la inferencia en sí. Esto cubre, por ejemplo, la energía de cómputo para procesar la entrada y generar la respuesta, incluyendo comunicaciones internas entre chips. Es medido directamente con instrumentación en tiempo real, reflejando la utilización real del acelerador en producción (que suele ser bastante menor que la utilización máxima teórica). Este apartado representa, en el caso de Google, alrededor del 58% del consumo total por consulta en el modelo Gemini.
- Consumo del sistema host (CPU y RAM): además del acelerador principal, cada servidor de IA incluye CPUs y memoria DRAM que soportan la inferencia (por ejemplo, manejando la cola de peticiones, cargas de datos, pre/post-procesamiento, etc.). La metodología incluye la energía usada por el procesador anfitrión y la memoria mientras colaboran en servir el modelo. En la práctica, este componente puede suponer aproximadamente 1/4 del consumo total de una inferencia.
- Energía de máquinas inactivas (idle): para garantizar alta disponibilidad y baja latencia, en entornos productivos se mantienen recursos de cómputo reservados que permanecen inactivos o infrautilizados parte del tiempo (por ejemplo, capacidad extra para absorber picos de tráfico o fallos de otros nodos). Aunque estos chips estén ociosos, consumen energía en espera, y por tanto la metodología imputa el gasto energético de la capacidad ociosa necesaria para sostener el servicio. Ignorar este factor daría una visión demasiado optimista del consumo, ya que en realidad se necesita cierta sobreaprovisión de hardware funcionando “en la sombra”.
- Sobrecarga de infraestructura (overhead de centro de datos): ejecutar una carga de IA no solo implica el gasto de los servidores directamente involucrados, sino también el consumo de los sistemas de soporte en el data center – como la climatización/refrigeración, distribución eléctrica, ventilación, etc. Este consumo de infraestructura se suele medir mediante el índice PUE (Power Usage Effectiveness), que relaciona la energía total consumida por el centro de datos con la energía utilizada por el equipamiento de TI. Google incluye este overhead en el cálculo: por ejemplo, con un PUE promedio ~1,09, aproximadamente un 9% adicional de energía se gasta en soporte por cada 100% consumido en los equipos de cómputo.
- Consumo de agua para refrigeración: en muchos centros de datos, parte de la eficiencia energética se logra mediante enfriamiento por evaporación (p. ej., torres de enfriamiento con agua). Esto implica un consumo de agua dulce, medido por métricas como WUE (Water Usage Effectiveness). Google incorpora también el uso de agua asociado a las inferencias, calculándolo en función de la energía disipada en calor que requiere refrigeración. En concreto, emplean el WUE (categoría 2, consumo neto) promedio anual de sus instalaciones para convertir los Wh consumidos (exceptuando la fracción de overhead no disipado en TI) en litros de agua evaporada. Con un WUE ~1,15 L/kWh en 2024, esos 0,24 Wh por prompt se traducen en ~0,26 mL de agua consumida.
Este perímetro de medición integral excluye, no obstante, algunos elementos por considerarlos fuera del control operativo directo de Google o poco significativos por petición: por ejemplo, el consumo de los dispositivos del usuario final (ej. la energía gastada en el móvil o PC del cliente), el consumo en redes de comunicación externas, o el costo energético del entrenamiento inicial del modelo (centrándose aquí solo en la fase de serving o inferencia en producció).
Gracias a esta metodología completa, es posible obtener una visión realista de la eficiencia operativa de un modelo de IA en producción. Muchos cálculos publicados previamente solo consideraban el consumo activo del acelerador durante la inferencia, ignorando CPU, inactividad y overhead. Eso representa una eficiencia teórica en condiciones ideales, pero no la eficiencia real en escala. De hecho, Google muestra que si se aplicara un método no integral (contando únicamente el gasto del chip de IA en actividad), se obtendría aproximadamente 0,10 Wh por prompt, 0,02 gCO2e y 0,12 mL de agua, números que subestiman a la mitad o más la huella real. Con el enfoque integral, esas mismas inferencias requieren ~0,24 Wh, 0,03 gCO2e y 0,26 mL de agua, respectivamente. Es decir, considerar todos los componentes duplica (o más) la estimación de energía y recursos por inferencia frente a un cálculo simplificado. Este contraste evidencia la importancia de definir estándares de medición consistentes en la industra para poder comparar correctamente la eficiencia de distintos modelos y sistemas de IA.
Métricas clave: energía, carbono y agua por inferencia
A partir de la instrumentación y mediciones en los centros de datos de Google, se definieron métricas clave por cada inferencia (por prompt) para cuantificar el impacto medioambiental:
- Energía por inferencia (Wh/prompt): energía eléctrica consumida para servir una consulta de usuario con el modelo de IA. Este valor incluye todos los componentes antes descritos (acelerador, CPU, etc., más la parte proporcional de infraestructura) por cada pregunta atendida.
- Emisiones de CO2e por inferencia (gCO2e/prompt): la cantidad de gases de efecto invernadero emitidos como resultado de la electricidad consumida por esa inferencia, más una fracción de las emisiones embebidas en la fabricación del hardware utilizado. Para calcularlo, Google aplica el factor de emisión medio de la energía eléctrica que utiliza (ajustado según sus compras de energía libre de carbono, usando el enfoque market-based). En 2024 su factor neto fue ~94 gCO2e/kWh gracias a energías renovables, significativamente inferior al factor estándar de la red (ubicación promedio) de ~345 gCO2e/kWh. Multiplicando este factor por la energía del prompt se obtienen las emisiones operativas (alcance 2) y, además, se suma una porción de emisiones de fabricación de los chips (alcance 1 y 3) atribuible a ese uso. El resultado es dado en gramos de CO2 equivalente por consulta atendida.
- Consumo de agua por inferencia (mL/prompt): la cantidad de agua dulce consumida (evaporada) en los sistemas de enfriamiento para disipar el calor generado por esa inferencia. Se deriva multiplicando la energía total (excepto la parte de overhead no disipado directamente por los equipos TI) por el factor WUE medio de los centros de datos, obteniendo mililitros por prompt. Como se mencionó, Google emplea ~1,15 L/kWh como WUE medio reciente.
Utilizando estas métricas, Google informó que el impacto medioambiental “típico” por cada petición de usuario a su modelo Gemini (mediana) en mayo de 2025 fue: 0,24 Wh de energía, 0,03 gCO2e emitidos y 0,26 mL de agua consumida
Métrica (por consulta) | Estimación teórica simplificada* | Medición integral (Google) |
---|---|---|
Energía eléctrica (Wh) | 0,10 | 0,24 |
Emisiones de CO2e (g) | 0,02 | 0,03 |
Agua consumida (mL) | 0,12 | 0,26 |
*Considera solo el consumo activo del chip IA, sin CPU, inactividad ni overhead. Representa un escenario idealizado de alta utilización, no una operación real a escala
.
Como se observa, la medición integral duplica o excede los valores de la estimación simplificada, reflejando las contribuciones significativas de los componentes no incluidos en los cálculos básicos. Aún así, incluso los valores integrales obtenidos por Google resultaron ser menores de lo que se temía públicamente. Por ejemplo, 0,24 Wh por prompt es menos de una décima parte de algunas estimaciones iniciales que calculaban 3 Wh o más por cada pregunta en GPT-3.5. Del mismo modo, el consumo de agua (~0,26 mL) es órdenes de magnitud inferior a evaluaciones externas como la de Mistral AI (que reportó ~45 mL de agua por respuesta de 400 tokens en su modelo, Le Chat). Estas diferencias se explican, en gran medida, por las distintas metodologías empleadas: sin una definición consistente de qué partes del sistema contabilizar (solo el chip vs. todo el sistema, uso en benchmarking aislado vs. en producción), las cifras pueden variar enormemente (hasta por un orden de magnitud, como señala Google). Estandarizar las métricas y metodologías es crucial para comparar el rendimiento ambiental de diferentes modelos y proveedores de IA de forma justa.
Otro resultado destacable es la rápida mejora en eficiencia lograda en poco tiempo. Google informó que entre mayo de 2024 y mayo de 2025, la energía consumida y las emisiones totales por prompt mediano de Gemini disminuyeron en un factor de 33× y 44× respectivamente. Es decir, en un año lograron servir peticiones con ~3% del consumo energético y ~2% de las emisiones de CO2e de lo que requerían un año antes, a la vez que aumentaba la calidad del modelo. Esta drástica reducción se debe a una combinación de optimizaciones de software (mejora de modelos, algoritmos, escalado) con mejoras en hardware y en el abastecimiento de energía más limpia.
El papel del hardware: TPUs y eficiencia computacional
Un factor fundamental para reducir el coste energético de la IA es el uso de hardware especializado optimizado para cargas de trabajo de machine learning. Google lleva más de una década diseñando sus propios ASICs llamados TPUs (Tensor Processing Units) con el objetivo de maximizar el rendimiento por vatio en entrenamiento e inferencia de IA. A diferencia de las CPU de propósito general (o incluso de GPUs diseñadas para múltiples aplicaciones), las TPUs están co-diseñadas junto con los modelos de IA: el equipo de Google ajusta las arquitecturas de sus modelos y las instrucciones/hardware de las TPUs a la vez, garantizando que el software aproveche al máximo el silicio y viceversa.
Esta co-optimización hardware-software se traduce en mejoras sustanciales de eficiencia. Por ejemplo, la generación más reciente de TPU de Google, de nombre en código Ironwood, logra ser 30× más eficiente energéticamente que la primera generación de TPU pública (lanzada apenas unos años atrás). Comparadas con CPUs tradicionales realizando la misma tarea de inferencia, las TPUs modernas ofrecen mucho mayor rendimiento por Watt (es decir, pueden procesar muchas más inferencias consumiendo la misma energía). Esto se debe a múltiples optimizaciones a nivel de chip: unidades matriciales altamente paralelizables, memoria on-chip y ancho de banda optimizados para cargas de redes neuronales, circuitería especializada en operaciones tensoriales, etc., reduciendo los ciclos e instrucciones necesarios por inferencia.
Google no ha publicado en detalle comparativas directas con GPUs en este informe, pero el hecho de operar todo su fleet de inferencia con TPUs propias indica una ventaja significativa en eficiencia sobre hardware genérico. Además, controlando el diseño del hardware, Google puede planificar futuras generaciones de TPUs teniendo en mente los requisitos de sus próximos modelos de IA (que tienden a ser más grandes y complejos), asegurando que cuando esos modelos estén listos, el hardware pueda ejecutarlos de forma óptima. Todo esto contribuye a que, a escala Google, el consumo por inferencia sea minimizado en cada capa: donde un enfoque tradicional podría usar servidores x86 o GPUs estándar con menor utilización, Google utiliza pods de TPUs altamente afinados para exprimir cada joule en trabajo útil de inferencia.
Cabe destacar que en la medición integral, el hardware determina en gran parte la distribución del consumo. En la actualidad, más de la mitad de la energía por consulta proviene del acelerador (TPU) en sí, ~25% de la CPU/RAM de apoyo, y el resto de la fracción de máquinas ociosas y overhead. Conforme el hardware mejore (por ejemplo, TPUs aún más eficientes o nuevas arquitecturas específicas), esta huella podría reducirse más. No obstante, hay un límite práctico: ciertos consumos fijos como la energía de enfriamiento o de idling solo pueden mitigarse hasta cierto punto sin cambios sistémicos (por ejemplo, consolidando cargas para tener menos chips ociosos, o mejorando la eficiencia PUE de los centros de datos). En resumen, el hardware especializado como las TPUs es una piedra angular para alcanzar niveles de eficiencia energética imposibles de lograr con infraestructuras tradicionales, y es un pilar clave en la estrategia de Google para reducir el impacto ambiental de la IA.
Estrategias de Google para reducir el impacto ambiental a escala
Google atribuye las mejoras dramáticas en eficiencia de Gemini (el mencionado 33× de reducción en energía por prompt en un año, y 44× en carbono) a un enfoque de optimización en todos los niveles de la pila (full-stack).
A continuación está el resumen de las principales estrategias técnicas y operativas empleadas para reducir el consumo y las emisiones por inferencia a gran escala:
- Modelos y arquitecturas más eficientes: Google construye sus modelos Gemini sobre la arquitectura Transformer optimizada, la cual ya de por sí aportó un salto de 10× a 100× en eficiencia frente a arquitecturas previas de modelado de lenguaje. Además, diseñan los modelos con estructuras intrínsecamente eficientes como Mixture-of-Experts (MoE) y esquemas de razonamiento híbrido, que limitan la porción activa del modelo en cada cálculo. Implementaciones más eficientes de componentes como la atención (attention) también contribuyen. En esencia, se busca que el modelo en sí requiera menos operaciones para generar resultados de alta calidad, atacando así el problema desde la raíz algorítmica.
- Algoritmos optimizados y quantización: Paralelamente a la arquitectura, Google optimiza continuamente los algoritmos de inferencia. Un ejemplo es el uso de AQT (Accurate Quantized Training), una técnica para entrenar con cuantización reduciendo la precisión numérica (p. ej. 8 bits) sin perder calidad. La cuantización y otras optimizaciones algorítmicas permiten que cada operación consuma menos energía, al manipular menos datos o datos más simples, manteniendo resultados equivalentes. También exploran optimizaciones en los decodificadores, funciones de búsqueda de texto (beam search vs. muestreo), etc., siempre con la meta de hacer más trabajo útil con menos cómputo.
- Optimización de la inferencia y serving: Gran parte de las innovaciones se centran en servir las respuestas de forma más eficiente sin sacrificar la experiencia del usuario. Aquí entran técnicas como la mencionada speculative decoding (decodificación especulativa), la distilación de modelos (crear versiones más pequeñas y rápidas, como Gemini Flash, que atiendan consultas ordinarias apoyándose en el conocimiento del modelo grande), y mejoras en la gestión de peticiones (como el batching adaptativo, colas inteligentes que maximizan la ocupación de los aceleradores respetando las latencias). El objetivo de estas técnicas es aumentar la cantidad de solicitudes atendidas por segundo por cada chip sin aumentar el consumo proporcionalmente, elevando la utilización efectiva de la flota de servidores de IA. Cada incremento en utilización (manteniendo los chips ocupados en trabajo útil en vez de esperar) reduce el costo energético por tarea, ya que la energía gastada en momentos de inactividad se reparte entre más inferencias realizadas.
- Hardware personalizado y co-diseño: Como se detalló, Google diseña sus TPUs internamente pensando en maximizar performance/Watt. La estrecha co-ingeniería entre modelos y hardware les permite implementar aceleraciones específicas para sus cargas (por ejemplo, instrucciones optimizadas para Transformer) y asegurarse de que el silicio no quede infrautilizado. La última generación TPU (Ironwood) es varias veces más eficiente que cualquier chip anterior que hayan usado públicamente. Asimismo, Google puede escalar su hardware en alineación con la demanda: añadir más núcleos TPU por servidor, más memoria HBM si el modelo lo requiere, etc., manteniendo una alta eficiencia. Todo este hardware a medida es operado en grandes clústeres con interconexiones de alta velocidad (otra pieza importante para que la distribución de modelos grandes en múltiples chips no penalice con esperas o transferencias costosas).
- Gestión dinámica de recursos e “idling” optimizado: Un reto al operar miles de aceleradores es minimizar el tiempo que están encendidos sin hacer trabajo útil. Google implementó en su stack de serving un sistema de asignación dinámica de modelos según la demanda en tiempo casi real. En lugar de dejar configurado un conjunto fijo de chips para cierto modelo (que podrían estar ociosos en horas valle), los orquestadores de Google migran y reubican modelos entre servidores según sube o baja la carga, asegurando que la mayoría de TPUs estén ocupadas procesando peticiones la mayor parte del tiempo. Esto contrasta con enfoques estáticos (“set it and forget”) donde un porcentaje de máquinas puede estar encendido sin uso. Al reducir drásticamente la fracción de hardware inactivo en espera, se recorta la componente de idle energy necesaria para alta disponibilidad.Del lado de CPU, también optimizan los hilos de soporte para que los núcleos trabajen de forma eficiente junto con las TPUs y no queden sobreasignados sin necesidad.
- Stack de software ML altamente eficiente: Para explotar al máximo el hardware, Google ha invertido en su compilador XLA, kernels personalizados (Pallas) y el sistema Pathways que coordina la ejecución de modelos en hardware distribuido. Este stack de software ajusta automáticamente las expresiones de alto nivel (por ejemplo definidas en JAX o TensorFlow) para generar código máquina optimizado para TPU, aplicando fusiones de operaciones, planificando óptimamente la memoria y comunicándose de forma asíncrona entre nodos. El resultado es que la carga de inferencia corre lo más cerca posible del potencial máximo del hardware, evitando cuellos de botella de software o overheads innecesarios. Un buen compilador/entorno puede marcar diferencias significativas en rendimiento por vatio, y Google indica que es parte integral de su enfoque full-stack.
- Centros de datos ultra-eficientes: El entorno donde corren estas cargas también aporta eficiencia. Los data centers de Google están entre los más eficientes de la industria, con un PUE promedio de ~1,09 a nivel global (es decir, solo ~9% de sobrecarga energética, muy por debajo del estándar típico de 1,5 o más en centros menos optimizados). Lograr esto implica uso extensivo de enfriamiento por aire libre y evaporativo, optimización de flujos de aire, equipos eléctricos de alta eficiencia, y un riguroso monitoreo para evitar malgastar energía en refrigeración cuando no es necesario. Google afirma que más del 90% de sus centros de datos ya operan con sistemas de enfriamiento libres de agua (air-cooled) la mayor parte del tiempo, y solo utilizan agua en climas o momentos donde el enfriamiento evaporativo sea imprescindible para mantener la eficiencia. Además, sus centros entregan hoy 5× más poder computacional por cada kWh que hace una década, gracias a mejoras tanto en TI como en infraestructura. Todo ello reduce el factor overhead por inferencia: menos watts extra dedicados a climatización por cada watt en cómputo útil.
- Energía limpia y estrategias de carbono y agua: Finalmente, una parte esencial de la reducción de emisiones es abatir el carbono en la fuente. Google continúa ampliando sus compras de energía libre de carbono 24/7 con el objetivo de que toda la electricidad que alimenta sus centros de datos provenga de fuentes renovables o libres de emisiones en tiempo real. Esto ya se refleja en sus factores de emisión: entre 2023 y 2024, a pesar de crecer la demanda de cómputo, las emisiones de carbono “Scope 2” de Google disminuyeron un 36% gracias a la descarbonización de su suministro eléctrico. A nivel de agua, Google adoptó un Water Risk Framework que desde 2023 dicta que cualquier nuevo centro de datos en áreas de estrés hídrico alto debe usar refrigeración por aire (cero consumo de agua) en condiciones normales. Asimismo, la compañía se comprometió a reponer el 120% del agua dulce que consume en promedio, invirtiendo en proyectos de restauración y eficiencia hídrica. Combinando una menor demanda de agua (vía mejores PUE/WUE y enfriamiento alternativo) con iniciativas de reposición, Google busca mitigar al máximo el impacto en recursos hídricos de sus operaciones de IA. Estas acciones de sostenibilidad, si bien no reducen la energía por inferencia per se, sí reducen las emisiones asociadas y la huella hídrica de cada joule consumido, moviendo el servicio de IA hacia un ciclo más limpio.
En conjunto, todas estas estrategias – desde optimizar el core del modelo hasta rediseñar el centro de datos – aportan mejoras acumulativas en eficiencia.
Es esta combinación de innovaciones a distintos niveles lo que permitió a Google lograr reducciones tan drásticas en la huella de la inferencia en tan solo 12 meses. Vale enfatizar que no existe una única bala de plata: el progreso provino de alinear muchas piezas (modelo, algoritmos, compilador, hardware, orquestación, instalaciones físicas, abastecimiento energético) en pos de la eficiencia. Esta aproximación holística sienta un precedente importante para la industria en cuanto a cómo abordar la sostenibilidad de la IA.
Es posible servir modelos de IA con un coste energético y de emisiones relativamente bajo
En conclusión, el trabajo de Google proporciona datos concretos y alentadores: con un diseño cuidadoso es posible servir modelos de IA de última generación con un coste energético y de emisiones relativamente bajo por uso.
Esto no minimiza el desafío global – dado el volumen de peticiones, incluso esos miliwatts y mililitros por consulta suman – pero indica un camino claro de optimización. El mensaje para los profesionales de IT es que la eficiencia sostenible de la IA debe abordarse de forma integral, desde el silicio hasta el centro de datos, y que con métricas estandarizadas podemos monitorear el progreso y compartir mejoras sectoriales.
La IA responsable, vista desde la perspectiva ambiental, implicará seguir midiendo, innovando y colaborando para que los beneficios de la inteligencia artificial vengan con la mínima huella posible en nuestro planeta.
Información basada en las publicaciones Google paper on Gemini, The Gentle Singularity de Sam Altman y Google search energy in 2008.