shadcn/studio
Evaluación (Opik)/Introducción

¿Qué es Opik?

Opik es el sistema de evaluación integrado en AstrApp. Te permite medir, comparar y mejorar la calidad de tus modelos de IA.

El problema que resuelve

Cuando entrenas un modelo de IA, ¿cómo sabes si realmente mejoró?

Sin un sistema de evaluación, te enfrentas a preguntas sin respuesta:

  • ¿El modelo está alucinando o dando información incorrecta?
  • ¿Qué datos de entrenamiento realmente ayudan?
  • ¿La nueva versión es mejor que la anterior?
  • ¿Qué patrones de conversación convierten leads?

Lo que Opik te da

Métricas automáticas

Detecta alucinaciones, mide relevancia de respuestas, calidad de conversación.

Comparación de versiones

Compara v1 vs v2 de tu modelo con datos reales antes de desplegar.

Rastreo automático

Todas las llamadas LLM se registran automáticamente sin modificar código.

Mejora continua

Identifica conversaciones exitosas para re-entrenar y mejorar.

Métricas clave que mide Opik

Tasa de alucinación

Porcentaje de respuestas que inventan información no existente.

< 5%

Puntuación de relevancia

Qué tan bien responde el modelo a la pregunta real del usuario.

> 85%

Apropiación de tono

Si el modelo mantiene el tono profesional y amigable esperado.

> 90%

Precisión de información

Qué tan exactos son los datos que proporciona (precios, specs, etc).

> 95%

Ejemplo de evaluación

Cuando comparas dos versiones de tu modelo, Opik te muestra resultados como estos:

Resultados del Experimento:
├── Modelo v1 (prompt):
│ ├── Alucinación: 12%
│ ├── Relevancia: 78%
│ └── Est. Conversión: 2.3%
└── Modelo v2 (afinado):
├── Alucinación: 3% ✓ 75% mejora
├── Relevancia: 91% ✓ 17% mejora
└── Est. Conversión: 4.1% ✓ 78% mejora

Esto te permite tomar decisiones basadas en datos, no en intuición.

Cómo usar Opik con AstrApp

  1. 1

    Activa el auto-tracing

    Todas tus llamadas LLM se registran automáticamente

  2. 2

    Define métricas personalizadas

    Añade métricas específicas para tu caso de uso

  3. 3

    Crea experimentos

    Compara versiones de tu modelo con datasets de prueba

  4. 4

    Analiza resultados

    Revisa métricas y decide si desplegar

  5. 5

    Itera

    Usa conversaciones exitosas para re-entrenar