Hinteligencia Hartificial: EJH de las IAs

Adoradores de la NES, seguidores del pingüino, Gafa-Pastas afiliados al iPod, histéricos del emule...
Avatar de Usuario
CacaDeLuxe
Ulema
Mensajes: 9652
Registrado: 28 Sep 2003 15:41

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por CacaDeLuxe »


Avatar de Usuario
wendigo
Zappatista
Mensajes: 10684
Registrado: 19 Mar 2003 03:01
Contactar:

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por wendigo »

"China’s DeepSeek is set to release a new AI model. A rough period for Nasdaq stocks could follow,"
Hay que decir que hace tiempo que se quedó bastante atrás comparado con Claude y Gemini. (ChatGPT va patrás como los cangrejos, cada vez más inútil)

Avatar de Usuario
elHijoDelFonk
moromielda
Mensajes: 203
Registrado: 17 Ene 2005 02:20

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por elHijoDelFonk »

Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?

Avatar de Usuario
M. Corleone
Ulema
Mensajes: 24707
Registrado: 07 Nov 2017 07:43

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por M. Corleone »

CacaDeLuxe escribió: 15 Feb 2026 22:31
Jajaja, brutal.
Polina escribió: 28 Mar 2023 22:01 Siempre puedes ajustarte las gafas de montura carey y degustar tu copa de Soberano mientras escribes una postal con tus quejas al apartado de correos 2376 de San Cugat del Valles.

Avatar de Usuario
CacaDeLuxe
Ulema
Mensajes: 9652
Registrado: 28 Sep 2003 15:41

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por CacaDeLuxe »

elHijoDelFonk escribió: 24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?
hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicas
Imagen



a mi me gusta mucho la de la maquina expendedora





El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.

¿En qué consiste?

Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:

Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).

¿Qué se evalúa?

Vending-Bench 2 mide capacidades como:

📊 Planificación a largo plazo
💰 Razonamiento económico
🔁 Toma de decisiones iterativa
🧠 Autonomía (sin intervención humana constante)
📈 Optimización de resultados

¿Por qué es importante?

A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.

Avatar de Usuario
CacaDeLuxe
Ulema
Mensajes: 9652
Registrado: 28 Sep 2003 15:41

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por CacaDeLuxe »

M. Corleone escribió: 24 Feb 2026 15:40 Jajaja, brutal.

Spoiler: mostrar
Imagen

Avatar de Usuario
Cide Hamete
Perro infiel amiricano
Mensajes: 48
Registrado: 13 Dic 2025 14:27

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por Cide Hamete »

CacaDeLuxe escribió: 24 Feb 2026 17:07
elHijoDelFonk escribió: 24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?
hay diferentes pruebas (benchmarks) que se les hace, de diferentes tematicas
Imagen



a mi me gusta mucho la de la maquina expendedora





El Vending-Bench 2 es una prueba diseñada para evaluar qué tan bien una IA puede actuar como agente autónomo en una situación del mundo real simulada.

¿En qué consiste?

Básicamente, se le da a la IA el objetivo de manejar una máquina expendedora virtual como si fuera un pequeño negocio real. La IA debe:

Decidir qué productos comprar
Negociar o elegir proveedores
Establecer precios
Gestionar inventario
Adaptarse a la demanda de los clientes
Maximizar beneficios
Tomar decisiones bajo incertidumbre
Todo esto ocurre en un entorno simulado que imita condiciones económicas reales (costos, competencia, cambios de demanda, etc.).

¿Qué se evalúa?

Vending-Bench 2 mide capacidades como:

📊 Planificación a largo plazo
💰 Razonamiento económico
🔁 Toma de decisiones iterativa
🧠 Autonomía (sin intervención humana constante)
📈 Optimización de resultados

¿Por qué es importante?

A diferencia de pruebas clásicas (como preguntas y respuestas o resolver problemas aislados), este benchmark evalúa si la IA puede:
Actuar como un agente económico
Tomar decisiones estratégicas sostenidas en el tiempo
Manejar objetivos complejos con múltiples variables
Es parte de una nueva generación de pruebas enfocadas en IA agente (agentic AI), no solo en modelos conversacionales.
No sabía que había un benchmark específico de eso. Hace un par de meses hicieron una prueba con una versión de Claude en la redacción del WSJ. Acabaron con los productos completamente de balde, "colectivizados", y la máquina hizo algunas compras curiosas como una PS5 y peces vivos.

Spoiler: mostrar

Aquí el artículo por si a alguien le interesa, aunque hay que saltarse la tapia.


Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?

Avatar de Usuario
CacaDeLuxe
Ulema
Mensajes: 9652
Registrado: 28 Sep 2003 15:41

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por CacaDeLuxe »

Cide Hamete escribió: 24 Feb 2026 17:41 Por cierto en la imagen que adjuntas, ¿por qué aparecen los resultados de Vending-Bench 2 en dineuros?, ¿cómo se lee o se entiende?
pos supongo que es el dinero que saca cada ia en esa maquina expendedora virtual. quien más saca, gana.

Avatar de Usuario
Doctor Beaker
Ulema
Mensajes: 6398
Registrado: 18 Oct 2005 18:56
Ubicación: Vi luz y subí

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por Doctor Beaker »

Hay unos problemas de matemáticas propuestos por Erdös que parece que (algunos) fueron resueltos sin que el responsable supiera de la propuesta, y parece que algunas IAs han conectado una cosa con la otra así que uno propuso que el benchmark sea justamente la lista de problemas del bueno de Paul.
“Un libro permanece, está en su anaquel para que lo confrontemos y ratifiquemos o denunciemos sus afirmaciones. El diario pasa. Tienen una vida efímera. Pronto se transforma en mantel o en envoltorio, pero en el espíritu desprevenido del lector va dejando un sedimento cotidiano en que se asientan, forzosamente las opiniones. Las creencias que el diario difunde son irrebatibles, porque el testimonio desparece”
Raúl Scalabrini Ortiz, Política Británica en el Río de la Plata

Avatar de Usuario
wendigo
Zappatista
Mensajes: 10684
Registrado: 19 Mar 2003 03:01
Contactar:

Re: Hinteligencia Hartificial: EJH de las IAs

Mensaje por wendigo »

elHijoDelFonk escribió: 24 Feb 2026 15:04 Pregunta desde la ignorancia, no va con segundas

¿Como se evalua lo buena o mala que es una IA?
Para los chatbots? Existen tests para usos específicos, que no te van a dar valores generales, pero es lo mejor que tenemos, porque la otra manera sería usar los specs que te dan los creadores.

Personalmente cuando digo que una funciona bien o mal lo digo en relación al uso que le doy personalmente. En mi experiencia en los últimos meses ChatGPT funciona fantásticamente bien hasta que deja de hacerlo. En ese momento empieza a sacarse datos del culo, ignorar tus peticiones, entrar en bucles absurdos. Claude funciona tan bien como chatgpt en su mejor nivel, y fuma muchos menos porros.

En fín., hablando de Claude, otra noticia guapa:

Pete Hegseth se reúne con el CEO de Anthropic por desacuerdos sobre las restricciones de IA para uso militar

https://edition.cnn.com/2026/02/24/tech ... ary-amodei

Responder