Skip to main content

ChatGPT y Mistral ahora se prueban jugando Street Fighter III

Las pruebas de rendimiento o benchmark son sumamente comunes en el mundo de la tecnología, pero sin el contexto adecuado pueden ser realmente aburridas. Ni qué decir cuando esas pruebas evalúan el rendimiento de un algoritmo de inteligencia artificial. ¿Y si en vez de usar estas pruebas se midiera el rendimiento de modelos de inteligencia artificial como ChatGPT o Mistral usando un videojuego de peleas? Bueno, pues esa debió ser la motivación detrás de Stan Girard para crear LLM Colosseum, básicamente un módulo de pruebas basadas en un emulador de videojuegos para comparar modelos de lenguaje de gran tamaño poniéndolos “a pelear” en Street Fighter III 3rd Strike.

Introducing LLM Colosseum ! 🔥

Evaluate LLMs quality by having them fight in realtime in Street Fighter III !

Who is the best ? @OpenAI or @MistralAI ?

Let them fight ! Open source code and ranking 👇 pic.twitter.com/GF6HOkVHIA

— Stan Girard (@_StanGirard) March 24, 2024

El módulo, explica su desarrollador, se basa en una premisa simple: cada modelo de lenguaje controla a un jugador (por ahora un Ken diferenciado por colores) y LLM Colosseum envía una descripción de la pantalla a cada modelo (el equivalente a un prompt). Cada modelo responde con un movimiento que a su vez recibe como respuesta otro movimiento y así hasta que termina el round. Los comandos de movimiento van desde acercarse, alejarse, lanzar un hodouken o hacer un shoryuken.

Matthew Berman, un youtuber entusiasta de la inteligencia artificial, cuenta en un video algunas observaciones interesantes en torno a los resultados de estos enfrentamientos. Quizá el más interesante es que la velocidad de respuesta es un aspecto crucial para salir triunfante en LLM Colosseum y que por eso modelos de lenguaje como Mistral Small superan a GPT-4.

A la vista las peleas lucen años luz de aquel legendario enfrentamiento entre Daigo Umehara y Justin Wong. Sin embargo, no perdamos de vista que se trata de un sistema para probar un modelo de lenguaje de gran tamaño de una forma más visual y que les exige mostrar qué tan adaptables se muestran en un escenario, digamos de vida o muerte. Encima, cada modelo debe actuar en tiempo real.

Hasta ahora, LLM Colosseum ha puesto a prueba siete modelos de lenguaje: Mistral Small, Mistral Medium, Mistral Large, GPT-3.5 Turbo, GPT-4, GPT-4-0125-preview y GPT-4-1106-preview. Hasta ahora, las pruebas ubican a GPT-3.5 Turbo como el ganador, seguido de cerca por Mistral Small y GPT-4-1106 preview.

Por ahora, todas las pruebas realizadas en LLm Colosseum son en Street Fighter III 3rd Strike, pero el emulador utilizado (Diambra) es compatible con otros títulos de peleas como Dead or Alive y The King of Fighters 98, entre otros.

Peleas de inteligencia artificial en tu PC

Como era de esperarse, LLM Colosseum está basado en un modelo de código abierto que puedes instalar en tu propia computadora para realizar pruebas tú mismo.

Your Favorite LLMs BATTLE In Street Fighter - New Benchmark!! (Tutorial)

Si estás interesado en instalar LLM Colosseum en tu PC, Matthew Berman explica paso a paso cómo hacerlo. El proceso involucra correr LLM Colosseum en DS Code e instalar Diambra y ejecutar algunos comandos de código. Buena suerte y hadouken.

Topics
Allan Vélez
Allan Vélez es un periodista mexicano especializado en tecnología. Inició su carrera en 2013 en La Revista Oficial de…
Ahora puedes jugar al Resident Evil original en PC en todo su esplendor retro
jugar resident evil original pc

Capcom
Capcom ha hecho que sea fácil experimentar los títulos más antiguos de Resident Evil con la ayuda de sus muchos remakes recientes, pero la mayoría de las veces no tenías suerte en las plataformas modernas si querías jugar las versiones originales de esos títulos. Bueno, la tienda de juegos de PC GOG anunció el miércoles que pronto podrás jugar los primeros tres juegos de Resident Evil en sus formas (en su mayoría) originales.

En este momento, sin embargo, solo Resident Evil está disponible. Por $ 10, puede jugar el icónico juego de terror de supervivencia de 1997 con solo algunas mejoras en la calidad de vida para que funcione bien en su PC con Windows 10 u 11. La versión de GOG realiza algunos cambios muy pequeños en la jugabilidad, incluida la mejora de la sincronización de las escenas y facilita la salida del juego, y ahora tiene soporte para la mayoría de los controladores modernos.

Leer más
Steam finalmente te permitirá grabar tu juego, incluso en Steam Deck
steam te permitira grabar juego

Válvula
Steam, el popular lanzador de juegos y tienda administrado por Valve, finalmente está probando una función que permitiría a los jugadores grabar clips de juego directamente desde la aplicación Steam.

Anunció la "Beta de grabación de juegos" en un blog de eventos de desarrollo de Steamworks y con una página web dedicada el miércoles por la tarde. La esencia de la grabación de juegos de Steam es que los jugadores podrán grabar imágenes de sí mismos jugando un juego en segundo plano mientras usan Steam. Esto tiene múltiples usos. Usando la superposición de Steam, los jugadores podrán reproducir clips de juego que acaban de capturar y encontrar "momentos clave" de su tiempo de juego a través de marcadores de eventos en algo que Valve llama la línea de tiempo de Steam.

Leer más
Game Pass llegará a tu Amazon Fire TV, incluso si no tienes una Xbox
game pass llegara amazon fire tv xbox

Amazon
Pronto ya no necesitarás una consola Xbox si tienes un Amazon Fire TV. Microsoft y Amazon anunciaron el jueves que la aplicación Xbox llegará a los dispositivos Fire TV en julio.

La aplicación Xbox funciona con Cloud Gaming, lo que significa que con una suscripción a Xbox Game Pass Ultimate, puede transmitir un enorme catálogo de juegos de la biblioteca de Xbox, incluidos muchos títulos propios y de terceros que llegan al servicio el día del lanzamiento. Grandes juegos como Starfield, Senua's Saga: Hellblade 2 y la serie Fallout son solo algunos ejemplos, y los juegos disponibles siempre están cambiando.

Leer más