Cómo hacer fiables las salidas de la IA: Así puntuamos la confianza en datos estructurados
Por qué es importante
Cuando los grandes modelos de IA como GPT generan texto, suelen hacerlo con gran fluidez, pero eso no siempre significa que acierten. La mayor parte de la investigación sobre "alucinaciones de la IA" se centra en respuestas de texto libre, como párrafos o resúmenes. Sin embargo, en el mundo real, especialmente en entornos empresariales y gubernamentales, la IA se utiliza cada vez más para generar salidas estructuradas, como JSON. Estas se emplean para automatizar decisiones, extraer datos de documentos o llamar a API, y un solo valor erróneo puede romper todo un sistema.
Entonces, ¿cómo saber cuándo confiar en la salida de la IA?
Hemos desarrollado un método práctico y transparente para medir el grado de confianza de la IA en su salida estructurada: campo por campo, token por token.
Una analogía sencilla: la IA como un estudiante en un examen
Imaginemos que la IA es un estudiante respondiendo a un examen tipo test.
¿Cuánta seguridad tiene en su respuesta?
Comprobamos con qué intensidad la IA "creyó" en cada token que eligió, de media. Es como preguntar al estudiante:
"¿Elegiste la A con seguridad o dudabas entre la A y la B?"
¿Cuánto se acercaba la segunda mejor respuesta?
Aunque la IA eligiese la respuesta correcta, ¿la segunda opción era casi igual de probable? Eso es una señal de alarma: sugiere que el modelo estaba dividido. Es como si el estudiante dijese:
Elegí la A, pero la B era casi igual de tentadora.
¿Cuánta incertidumbre tenía en general?
Considerando todas las opciones que la IA evaluó (no solo la A y la B), ¿estaba repartiendo sus apuestas de forma dispersa? Si es así, probablemente no tenía confianza. Es como si un estudiante dijese:
Sinceramente, cualquiera de las respuestas podría haber sido correcta.
Combinamos todas estas señales en una única puntuación que indica:
¿cuánta confianza tenemos, realmente, en que esta salida es correcta?
Cómo lo hacemos: Nuestro sistema de puntuación
No utilizamos un modelo de caja negra. En su lugar, calculamos una puntuación de confianza utilizando tres elementos:
- ¿Cuán firme era la creencia de la IA en sus respuestas?
Analizamos las estimaciones de probabilidad internas de la IA para los token que seleccionó. Si estas son consistentemente altas, es una buena señal.
- ¿Hubo algún momento de duda?
Encontramos el punto en la salida donde la IA dudó más: donde su primera opción apenas era mejor que la siguiente. Esto revela los puntos débiles de la generación.
- ¿Estaba la IA dispersa en sus decisiones?
La entropía nos indica cuán dispersa estaba la atención de la IA sobre los posibles token. Alta entropía = baja certeza.
Partimos de una confianza base (de ALP) y luego restamos penalizaciones:
- Una por el punto más débil de duda (MinTG).
- Otra si el modelo estaba generalmente confuso (AvgNE).
Finalmente, escalamos y recortamos la puntuación para que sea fácil de entender: entre 0 y 1 (o entre 0 y 100).
Qué hace útil este sistema
Esta puntuación no es solo una métrica teórica. Es:
- Consciente de los token: Refleja cómo el modelo tomó realmente sus decisiones.
- Transparente: Se puede auditar por qué una puntuación es alta o baja.
- Adaptable: Se puede ajustar para tu dominio, en función del nivel de incertidumbre que puedas tolerar.
Y lo más importante, funciona con salidas estructuradas como JSON, donde las métricas típicas de NLP se quedan cortas.
Mantener la honestidad: Bucle de retroalimentación humana
Incluso un gran sistema de puntuación necesita calibración.
Combinamos esta puntuación con retroalimentación humana del mundo real, marcando qué salidas fueron realmente buenas o malas. Con el tiempo, ajustamos los pesos de las penalizaciones y los umbrales para que la puntuación esté cada vez más alineada con el criterio humano. También podemos utilizar métodos de calibración estadística como el escalado de Platt o la regresión isotónica para refinar aún más el sistema.
Esto convierte la puntuación en un verdadero predictor de la calidad de la salida.
En resumen
Nuestro marco de puntuación de confianza ayuda a responder una pregunta sencilla con implicaciones de gran calado:
¿Puedo confiar en esta salida estructurada de la IA?
Combinando:
- La solidez de la probabilidad a nivel de token,
- Los momentos de duda,
- La confusión general,
- Y la retroalimentación del mundo real…
Te ofrecemos una puntuación en la que puedes confiar.
Ya sea que estés extrayendo datos de contratos, generando respuestas de formularios o activando flujos de trabajo en el backend, esta puntuación te ayuda a saber cuándo automatizar y cuándo verificar manualmente. (Descubre por qué esto importa a gran escala.)
¿Quieres más detalle?
¿Te gustaría profundizar en las matemáticas y la metodología detrás de nuestra puntuación de confianza?
Consulta nuestra publicación pendiente preprint.
⚠️ Precaución: Aparecen ecuaciones en estado salvaje.
Desglosamos las fórmulas, las estrategias de calibración y los ejemplos que alimentan nuestro sistema de puntuación heurística, ideal para investigadores, ingenieros y cualquiera que quiera ver qué hay bajo el capó.


