top of page
Buscar

Desafiando a los modelos:  Los nuevos Benchmarks de para evaluar las IA

  • Foto del escritor: juan felipe beltran diaz
    juan felipe beltran diaz
  • 24 feb 2025
  • 2 Min. de lectura

Actualizado: 25 feb 2025


Los benchmarks recientes en inteligencia artificial (IA) han introducido desafíos significativos para evaluar las capacidades de los modelos de lenguaje avanzados. A continuación, se presentan detalles sobre los benchmarks mencionados:


EnigmaEval de Scale AI


Descripción: EnigmaEval es un conjunto de pruebas diseñado para evaluar las capacidades de razonamiento multimodal de los modelos de lenguaje. Está compuesto por 1184 puzzles derivados de competiciones de acertijos, que requieren un razonamiento complejo y la capacidad de establecer conexiones entre información aparentemente no relacionada [13].


Características clave:

  • Complejidad: Los puzzles son muy complejos, requiriendo a equipos de solvers experimentados horas o días para resolverlos.


  • Desempeño de los modelos: Incluso los modelos más avanzados logran una precisión muy baja, generalmente por debajo del 10% [23].


SWE-Lancer de OpenAI


Descripción: SWE-Lancer es un benchmark que evalúa la capacidad de los modelos de lenguaje para realizar tareas de ingeniería de software como freelancers en plataformas como Upwork. El conjunto de datos incluye 1,400 tareas reales con valores que van desde $50 hasta $32,000 [46].


Características clave:

  • Tareas: Incluye tanto tareas técnicas (resolución de problemas de código) como de gestión (evaluación y selección de propuestas técnicas).


  • Desempeño de los modelos: Claude 3.5 Sonnet destacó al "ganar" alrededor del 40% del total de $1 millón en tareas, mientras que otros modelos como GPT-4.0 también mostraron un desempeño notable [6].


SuperGPQA


Descripción: Aunque no se menciona directamente en los resultados de búsqueda, SuperGPQA es un benchmark que amplía las pruebas de preguntas científicas. En sus resultados, destaca el modelo DeepSeek R1, aunque no se proporcionan detalles específicos en los resultados de búsqueda disponibles.


En resumen, estos benchmarks demuestran que, aunque los modelos de lenguaje avanzados han mejorado significativamente, todavía enfrentan desafíos importantes en tareas que requieren razonamiento complejo y aplicación práctica en entornos reales.


Fuentes:

  1. https://arxiv.org/html/2502.08859v1

  2. https://scale.com/leaderboard/enigma_eval

  3. https://static.scale.com/uploads/654197dc94d34f66c0f5184e/EnigmaEval%20v4.pdf

  4. https://www.turtlesai.com/en/pages-2343/openai-introduces-swe-lancer-a-benchmark-for-sw-en

  5. https://community.openai.com/t/openai-releases-new-coding-benchmark-swe-lancer-showing-3-5-sonnet-beating-o1/1123976

  6. https://promptengineering.org/can-ai-earn-a-million-dollars-as-a-freelance-software-engineer-openai-puts-it-to-the-test/

  7. https://www.anthropic.com/news/claude-3-5-sonnet

  8. https://www.aimodels.fyi/papers/arxiv/supergpqa-scaling-llm-evaluation-across-285-graduate

  9. https://huggingface.co/deepseek-ai/DeepSeek-R1

  10. https://ieantonioroldanbetancur.edu.co/?i=449881816

  11. https://scale.com/research/enigma_eval

  12. https://scale.com/leaderboard

  13. https://arxiv.org/abs/2502.08859


IAs que ayudaron a hacer esto posible:

  • Asistencia de Grok 3 para la elaboración de la imagen

  • Asistencia para la investigación con Perplexity IA Investigación profunda.

  • Asistencia para el contenido media con GPT assistant (fine tuned).

Todo el contenido has sido creado por un humano con la ayuda de inteligencia artificial.

 
 
 

Comentarios


Recibe actualizaciones en tu correo

¡Gracias!

  • Facebook
  • Instagram
  • X

© 2024 Creado por Juan Beltran con Wix.com

bottom of page