Fortalezas y problemas de Gemini, Claude, ChatGPT y Mistral
He trabajado con prácticamente todos los principales modelos de IA. Todos tienen fortalezas, pero también problemas.
Aquí tienes todo lo que no me gusta de Gemini, Claude, ChatGPT y Mistral.
Google/Gemini
Modelos de primer nivel más rápidos. Ventana de contexto enorme. Buenos precios.
Problema 1: Configuración
La configuración es TERRIBLE. La API principal no sigue las especificaciones de OpenAI y aunque tienen un modo compatible con OpenAI, es malísimo.
Vertex es PÉSIMO. Es la única gran plataforma de IA que no permite usar claves API tradicionales. Está construida para integrarse con el resto del ecosistema de GCP1. Tristemente, ese ecosistema es muy complicado y la mayoría de las aplicaciones de IA no forman parte de él.
Por eso es recomendable usar AI Studio, mucho mejor pero también mucho más limitado.
Problema 2: Transparencia de costos
Dato curioso: NO HAY MANERA de ver estimaciones de costes por uso de Gemini en GCP. Su plataforma de métricas es muy compleja y además no tiene los datos necesarios para saber cuánto estás gastando. No tenemos idea de cuál será nuestra factura hasta fin de mes.
Todas las demás plataformas tienen un buen panel de “uso” que desglosa los costos por día, por modelo e incluso por clave API.
Problema 3: Los BUGS
Google debería tener esto resuelto pero no es así. Las plataformas multi-modelo se quejan que Gemini produce “más del 80% de los bugs específicos de plataforma que tienen que arreglar”.
Actualmente hay un bug con el grounding de búsqueda en 2.5 Pro que devuelve los tokens de razonamiento en lugar de la respuesta real. Una locura.
Problema 4: Cero acceso a los datos de razonamiento
Deepseek R1 marcó la expectativa de que los tokens de razonamiento podían ser accesibles para desarrolladores. ¡Fue genial! La mayoría de los proveedores siguieron ese ejemplo, y ahora exponen esos tokens vía API.
Gemini es la ÚNICA opción que muestra tokens de razonamiento en la app, pero se niega a mostrarlos por API.
Problema 5: Caché
Gemini es el único modelo importante que requiere llamadas API separadas para almacenar tokens en caché. Esto hace que la experiencia de desarrollo en torno a la caché sea absolutamente miserable. ¿El resultado? Nadie se molesta en cachear en Gemini, así que absorbemos el costo de reutilizar hasta 1 millón de tokens por solicitud.
Problema 6: Rarezas generales de los modelos
Para ser claros, ¡estos modelos son buenos! Pero… son raros. Son malos formateando, especialmente en tablas markdown y código.
Todavía hay una probabilidad no nula de que al intentar hacer una tabla se dispare un bucle infinito de “———”, comiéndose un montón de tokens de salida y fallando en generar una respuesta.
Anthropic/Claude
A los desarrolladores les encanta usarlos, aunque los deje en bancarrota.
Problema 1: Coste
Estos modelos son absurdamente caros para lo que ofrecen. Más de 3 veces más caros que modelos más inteligentes como o4-mini. La verbosidad de 3.7 lo empeora, ya que sus tokens de salida tienen un costo ridículamente alto.
Problema 2: Fiabilidad
Su fiabilidad es mala. El uso de su API oficial tiene como un 85% de fiabilidad. La mayoría de los errores de generación son por caídas de las APIs de Claude.
xAI/Grok
Sorprendentemente buenos (Grok 3 Mini) y sorprendentemente malos (Grok 3).
Problema 1: Grok 3
Nunca debería haberse lanzado Grok 3. Grok 3 Mini es significativamente más inteligente, más rápido y ABSURDAMENTE más barato que Grok 3. ¡Grok 3 ni siquiera piensa! Es simplemente malo. No lo uses.
Problema 2: Versiones “rápidas”
Por alguna razón, decidieron dividir las APIs de Grok 3 en dos versiones por modelo: normal y “rápida” (que cuesta 50% más).
Esto ya es raro de por sí, pero se vuelve MUCHO más gracioso cuando te enteras de que las versiones “rápidas” son en realidad MÁS LENTAS que las normales.
Problema 3: Grandes promesas, cero transparencia
Las APIs para los modelos Grok 3 salieron meses después de lo previsto. Elon también prometió que “los modelos anteriores serán de código abierto cuando salgan los nuevos”, específicamente prometiendo publicar los weights de Grok 2. Esa promesa fue hace 3 meses. No va a pasar.
OpenAI
Sorprendentemente fiable.
Problema 1: Precios de los “modelos grandes”
Es sinceramente extraño que la misma empresa tenga la opción con mejor relación calidad-precio (o4-mini) y también la peor (o1-pro). Estamos hablando de un aumento de más de 100x en el precio por un modelo PEOR.
Problema 2: Razonamiento ofuscado
Para ser claros, esto es mucho menos grave que lo de Gemini. OpenAI no expone datos de razonamiento completos en ningún lado, ni siquiera en sus propias apps. Exponen resúmenes en la app, pero no por API.
Bueno, no los exponían. Lo arreglaron con el lanzamiento de o4-mini. ¡Enorme! Ahora Gemini es la ÚNICA opción que se niega a permitirnos brindar una mejor experiencia a nuestros usuarios.
Problema 3: Rarezas con los cambios en la API
Tenemos demasiadas condiciones codificadas del tipo “si modelo ChatGPT O, agrega X al system prompt”. ¡Tienes que añadir una cadena extraña en la primera línea de tu system prompt si quieres que devuelva markdown válido! ¡Raro!
Mistral
La opción “open” que no es tan open.
Problema 1: Disponibilidad restringida
Mistral es el ÚNICO proveedor que lanza una app usando modelos que los desarrolladores no pueden usar. Firmaron un acuerdo privado con Cerebras, y no exponen esa infraestructura en “Le Platforme”.
Si quieres agregar modelos Mistral a tus productos, correrían 80 veces más lento que en la app oficial de Mistral. ¡Y no hay nada que puedas hacer al respecto!
Problema 2: “open”
¿Fue Mistral uno de los primeros grupos en hacer modelos open weights de calidad? Claro. Pero se les subió a la cabeza. Si los desarrolladores no pueden usar los modelos que muestras en tu app, no eres “open”.
Información basada en la publicación en Twitter/X de Theo – t3.gg (Full time CEO @ T3 Chat «like chatgpt, but with less features») que suscribo al 100%.
- El ecosistema de Google Cloud Platform (GCP) es un conjunto amplio y diverso de servicios de computación en la nube ofrecidos por Google. GCP proporciona una variedad de herramientas y recursos para ejecutar aplicaciones, almacenar datos, realizar análisis y desarrollar aplicaciones de IA. Incluye servicios como computación, almacenamiento, bases de datos, análisis de datos, IA y herramientas de desarrollo. ↩︎