El pasado fin de semana Meta anunció Llama 4, una familia de LLMs (grandes modelos de lenguaje, el motor de las modernas herramientas de inteligencia artificial) que prometen "un mayor razonamiento universal" gracias a que han sido entrenados con mayores cantidades de texto.
Llama 4 es un lanzamiento significativo porque Meta ofrece sus modelos de forma abierta. Cualquiera (empresas, investigadores, usuarios...) puede descargarlos y adaptarlos a sus necesidades. Es la primera gran familia abierta de LLMs desde el anuncio de DeepSeek, la IA china que ha puesto a todo Silicon Valley en alerta y en cierto modo la respuesta estadounidense a la amenaza de su liderazgo en el sector.
Aunque son modelos abiertos, hay algunas restricciones. Compañías con sede en Europa, por ejemplo, no pueden usar Llama 4, debido -según Meta- a requisitos de la Unión Europea. Empresas con más de 700 millones de usuarios también tienen que pedir permiso previo para su uso comercial.
Los modelos son increíblemente avanzados y cuentan con algunas características hasta ahora nunca vistas en las modernas herramientas de inteligencia artificial, como una ventana de contexto de 10 millones de tokens (un token equivale más o menos a una palabra). El contexto es la cantidad de información que una IA puede retener a la hora de elaborar una respuesta y es especialmente importante cuando se quieren mantener conversaciones largas con una IA o pedirle que analice documentos muy extensos.
Pero a las pocas horas de su lanzamiento, empezaron a surgir dudas sobre las altas puntuaciones que estos modelos son capaces de conseguir en algunos de los exámenes y pruebas que se usan para evaluar sus capacidades.
Llama 4 está disponible en tres versiones: Scout, Maverick y Behemoth. Behemoth, que tendrá dos billones de parámetros (el número de parámetros indica la cantidad de información que ha absorbido durante su entrenamiento y, por regla general, cuanto mayor es, más capaz e inteligente resulta), aún está en fase de desarrollo.
Maverick, con 400.000 millones de parámetros, sin embargo, consiguió superar a 4o de OpenAI y casi equipararse a Gemini 2.5 Pro de Google en las pruebas de LMArena, un popular servicio de evaluación de LLMs.
Pero en una nota al pie de los resultados, meta explicaba que la versión utilizada en LMArena no es la misma que la que está disponible para el público. Se trata de una "versión experimental" optimizada para tener mejor capacidad de conversación, el principal factor que suele determinar una alta posición en LMArena.
LMArena ha eliminado finalmente los resultados de Llama 4 Maverick de su clasificación. "Meta debería haber dejado más claro que 'Llama-4-Maverick-03-26-Experimental' era un modelo personalizado para optimizar la preferencia humana. Como resultado, estamos actualizando nuestras políticas de clasificación para reforzar nuestro compromiso con evaluaciones justas y reproducibles para que esta confusión no ocurra en el futuro", explican desde el servicio.
La maniobra ha puesto de relieve lo poco fiables que son estas baterías de pruebas a la hora de conocer realmente las capacidades de un modelo, aunque desde Meta se defienden asegurando que no han modificado Llama 4 específicamente para superar tests, tan sólo que están "probando diferentes versiones", en palabras de Ahmad Al-Dahle, vicepresidente de IA generativa de la empresa.
Otros tests, enfocados en preguntas de diversas áreas de experiencia como matemáticas o física, pueden parecer más justos pero sufren de problemas similares porque los desarrolladores conocen de antemano el tipo de preguntas que suele parecer en ellos, y pueden entrenar sus modelos para que sean especialmente eficaces a la hora de resolverlos.
De momento no hay un consenso general en la industria sobre cómo evaluar objetivamente los LLM. LLMArena suele ser una de las pruebas de referencia, pero el problema no es muy diferente al de evaluar a una persona. Superar un examen puede indicar que tiene un amplio conocimiento sobre un tema o que ha estudiado lo justo para pasarlo. En algunos casos, incluso sabiendo las preguntas de antemano.