Por qué GPT por sí solo no es suficiente para la extracción real de documentos

Una mirada práctica a los límites de los LLM en la Inteligencia Documental

En anyformat, nuestra misión es sencilla: convertir cualquier archivo en los datos que necesitas.

Los grandes modelos de lenguaje como GPT han transformado nuestra forma de interactuar con el texto. Resumen, traducen y generan contenido con una fluidez impresionante.

Pero cuando se trata de convertir documentos del mundo real — facturas, albaranes, planes de proyecto — en datos estructurados y fiables, la idea de "simplemente usar GPT" se desmorona rápidamente.

🧩 Los documentos reales son complejos — y eso importa

Los documentos reales no son solo texto plano. Combinan:

párrafos
jerarquías visuales
sellos y firmas
tablas
diagramas y figuras
maquetaciones mixtas

Intentar extraer todo en una sola pasada del modelo (extracción en un solo paso) a menudo falla de formas sutiles e impredecibles.

¿Por qué?

Porque el modelo debe realizar simultáneamente la comprensión del diseño, la interpretación semántica y la preservación de la estructura — y hasta el mínimo ruido puede descarrilar el resultado.

🧪 ¿Puede GPT hacer OCR? Sí. ¿Puedes confiar en él? A veces.

Todo pipeline robusto de documentos comienza con un paso esencial:
OCR — convertir un PDF o escaneo en texto legible por máquina (Markdown/HTML).

Los LLM multimodales pueden realizar OCR, pero en la práctica observamos de forma constante:

Ruido menor en el diseño → interpretaciones erróneas graves
Escaneos de bajo contraste → bloques de texto fusionados o parcialmente ausentes
Tablas y figuras → aplanadas o malinterpretadas como prosa
Contexto visual → ignorado

Y el problema clave:

🔄 Cuando el OCR es defectuoso, cada paso posterior de extracción está condenado al fracaso.

¿Una tabla malinterpretada como un párrafo? Imposible de analizar.
¿Un encabezado perdido? La estructura semántica se derrumba.
¿Un número incorrecto? La lógica de negocio se rompe.

Estos no son casos extremos — son factores decisivos para las empresas que intentan automatizar flujos de trabajo solo con LLM.

📉 Tablas: el punto débil silencioso de los pipelines documentales

Las tablas comprimen significado multidimensional en estructuras dependientes del diseño.

Su interpretación depende no solo del texto, sino de:

posiciones de filas y columnas
encabezados
celdas combinadas
señales estructurales implícitas

Incluso los LLM más potentes fallan frecuentemente al:

🔄 Mantener la estructura — las filas desaparecen, los encabezados se fusionan
🧱 Preservar el diseño — el formato ambiguo se convierte en prosa
⚠️ Garantizar la coherencia — tablas casi idénticas producen resultados diferentes

📊 Benchmark: Precisión en tablas entre distintos LLM

Evaluamos ~1.130 tablas de más de 1.000 documentos reales, derivados del GetOmni OCR Benchmark [1].

El conjunto de datos es enormemente valioso (¡gracias, GetOmni!), pero no es perfecto:

Los diseños repetitivos reducen la diversidad y pueden inflar el rendimiento
Los formatos de tabla mixtos (Markdown + HTML) complican la evaluación

En nuestra investigación, muchos fallos se originan antes de la extracción — en el paso de análisis de Markdown. Markdown simplemente no puede representar estructuras de tabla complejas.

En anyformat, validamos y corregimos manualmente el HTML de referencia (ground truth) para garantizar una evaluación coherente.

Comparamos las tablas HTML predichas utilizando la distancia de edición normalizada [2].

A continuación se muestra un ejemplo de nuestra precisión en la extracción de tablas en un solo paso entre distintos LLM:

Gráfico de precisión en tablas

Figura 1: Precisión de OCR en la extracción de tablas en un solo paso entre varios LLM, utilizando la distancia de edición normalizada entre el HTML predicho y el de referencia (GT).

Conclusiones clave:

La precisión varía drásticamente entre modelos
Los modelos más pequeños frecuentemente rinden por debajo de lo esperado
Algunos modelos grandes (como Gemini Pro) destacan — pero pueden ser excesivos

Entonces, ¿cómo se maximiza la precisión sin reventar el presupuesto de costes?

🛠️ Nuestro enfoque: descomponer antes de extraer

En anyformat, evitamos las llamadas monolíticas y frágiles a un solo modelo.

En su lugar, nuestro agente de IA orquesta la extracción, descomponiendo cada documento en sus partes constituyentes.

Nuestro pipeline multietapa consciente de la estructura incluye:

Mejora previa al OCR
Contraste, eliminación de ruido, mejoras de DPI
Segmentación semántica
Identificación de párrafos, tablas, figuras, notas a pie de página
Detección de elementos críticos
Sellos, firmas, marcadores visuales
Enrutamiento a rutinas de extracción especializadas
Utilizando prompts de LLM adaptados por tipo de elemento
Validación y reconciliación Postprocesamiento, puntuación de confianza, corrección de errores

Esta descomposición garantiza:

El ruido y los artefactos de diseño se filtran de forma temprana
Las alucinaciones disminuyen
La tarea del modelo queda acotada y es fiable

Incluso los LLM de propósito general rinden mucho mejor una vez que la tarea de extracción está correctamente enmarcada.

Reconocimiento visual

Figura 2: Ejemplo de un diseño de documento complejo con múltiples elementos interrelacionados — que demuestra por qué la segmentación es crucial.

🛠️ De hacerlo tú mismo a tenerlo resuelto

Algunos equipos intentan construir sus propios pipelines de extracción basados en LLM.

Unos pocos lo consiguen — tras meses de experimentación, ingeniería y un doloroso control de calidad.

La mayoría de los equipos no disponen de ese tiempo.

anyformat no es un servicio. Es un producto.
Un motor de extracción a nivel de producción que funciona desde el primer día.

No necesitas construir tu propia plataforma de inteligencia documental.
Necesitas una que funcione.

🚀 ¿Quieres verlo en acción?

Permítenos probar anyformat con tus documentos.

Descubre cómo es una extracción precisa.

📧 info@anyformat.ai 🌐 anyformat.ai

Compara anyformat: vs ChatGPT, Claude y Gemini · vs LlamaParse · vs Unstructured · Todas las comparaciones →

🧾 Resumen de la metodología

Documentos analizados: más de 1.000 archivos reales [1]
Tablas evaluadas: ~1.130, con HTML validado manualmente
Métrica: Distancia de edición normalizada [2]
Modelos: Claude 3.7 Sonnet, Claude 3.5 Sonnet, Claude 3 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 2.0 Flash, Gemini 2.5 Pro, GPT-4o, GPT-4o mini, GPT-4.1

📚 Bibliografía

[1] getOmni.ai. (2024). OCR Benchmark Dataset. Hugging Face.
[2] Zhong, Xu, et al. "Image-based table recognition: data, model, and evaluation." ECCV. Springer, 2020.

Por qué GPT por sí solo no es suficiente para la extracción real de documentos

Una mirada práctica a los límites de los LLM en la Inteligencia Documental

En anyformat, nuestra misión es sencilla: convertir cualquier archivo en los datos que necesitas.

Los grandes modelos de lenguaje como GPT han transformado nuestra forma de interactuar con el texto. Resumen, traducen y generan contenido con una fluidez impresionante.

🧩 Los documentos reales son complejos — y eso importa

Los documentos reales no son solo texto plano. Combinan:

párrafos
jerarquías visuales
sellos y firmas
tablas
diagramas y figuras
maquetaciones mixtas

Intentar extraer todo en una sola pasada del modelo (extracción en un solo paso) a menudo falla de formas sutiles e impredecibles.

¿Por qué?

🧪 ¿Puede GPT hacer OCR? Sí. ¿Puedes confiar en él? A veces.

Todo pipeline robusto de documentos comienza con un paso esencial:
OCR — convertir un PDF o escaneo en texto legible por máquina (Markdown/HTML).

Los LLM multimodales pueden realizar OCR, pero en la práctica observamos de forma constante:

Ruido menor en el diseño → interpretaciones erróneas graves
Escaneos de bajo contraste → bloques de texto fusionados o parcialmente ausentes
Tablas y figuras → aplanadas o malinterpretadas como prosa
Contexto visual → ignorado

Y el problema clave:

🔄 Cuando el OCR es defectuoso, cada paso posterior de extracción está condenado al fracaso.

¿Una tabla malinterpretada como un párrafo? Imposible de analizar.
¿Un encabezado perdido? La estructura semántica se derrumba.
¿Un número incorrecto? La lógica de negocio se rompe.

Estos no son casos extremos — son factores decisivos para las empresas que intentan automatizar flujos de trabajo solo con LLM.

📉 Tablas: el punto débil silencioso de los pipelines documentales

Las tablas comprimen significado multidimensional en estructuras dependientes del diseño.

Su interpretación depende no solo del texto, sino de:

posiciones de filas y columnas
encabezados
celdas combinadas
señales estructurales implícitas

Incluso los LLM más potentes fallan frecuentemente al:

🔄 Mantener la estructura — las filas desaparecen, los encabezados se fusionan
🧱 Preservar el diseño — el formato ambiguo se convierte en prosa
⚠️ Garantizar la coherencia — tablas casi idénticas producen resultados diferentes

📊 Benchmark: Precisión en tablas entre distintos LLM

Evaluamos ~1.130 tablas de más de 1.000 documentos reales, derivados del GetOmni OCR Benchmark [1].

El conjunto de datos es enormemente valioso (¡gracias, GetOmni!), pero no es perfecto:

Los diseños repetitivos reducen la diversidad y pueden inflar el rendimiento
Los formatos de tabla mixtos (Markdown + HTML) complican la evaluación

En nuestra investigación, muchos fallos se originan antes de la extracción — en el paso de análisis de Markdown. Markdown simplemente no puede representar estructuras de tabla complejas.

En anyformat, validamos y corregimos manualmente el HTML de referencia (ground truth) para garantizar una evaluación coherente.

Comparamos las tablas HTML predichas utilizando la distancia de edición normalizada [2].

A continuación se muestra un ejemplo de nuestra precisión en la extracción de tablas en un solo paso entre distintos LLM:

Gráfico de precisión en tablas

Figura 1: Precisión de OCR en la extracción de tablas en un solo paso entre varios LLM, utilizando la distancia de edición normalizada entre el HTML predicho y el de referencia (GT).

Conclusiones clave:

La precisión varía drásticamente entre modelos
Los modelos más pequeños frecuentemente rinden por debajo de lo esperado
Algunos modelos grandes (como Gemini Pro) destacan — pero pueden ser excesivos

Entonces, ¿cómo se maximiza la precisión sin reventar el presupuesto de costes?

🛠️ Nuestro enfoque: descomponer antes de extraer

En anyformat, evitamos las llamadas monolíticas y frágiles a un solo modelo.

En su lugar, nuestro agente de IA orquesta la extracción, descomponiendo cada documento en sus partes constituyentes.

Nuestro pipeline multietapa consciente de la estructura incluye:

Mejora previa al OCR
Contraste, eliminación de ruido, mejoras de DPI
Segmentación semántica
Identificación de párrafos, tablas, figuras, notas a pie de página
Detección de elementos críticos
Sellos, firmas, marcadores visuales
Enrutamiento a rutinas de extracción especializadas
Utilizando prompts de LLM adaptados por tipo de elemento
Validación y reconciliación Postprocesamiento, puntuación de confianza, corrección de errores

Esta descomposición garantiza:

El ruido y los artefactos de diseño se filtran de forma temprana
Las alucinaciones disminuyen
La tarea del modelo queda acotada y es fiable

Incluso los LLM de propósito general rinden mucho mejor una vez que la tarea de extracción está correctamente enmarcada.

Reconocimiento visual

Figura 2: Ejemplo de un diseño de documento complejo con múltiples elementos interrelacionados — que demuestra por qué la segmentación es crucial.

🛠️ De hacerlo tú mismo a tenerlo resuelto

Algunos equipos intentan construir sus propios pipelines de extracción basados en LLM.

Unos pocos lo consiguen — tras meses de experimentación, ingeniería y un doloroso control de calidad.

La mayoría de los equipos no disponen de ese tiempo.

anyformat no es un servicio. Es un producto.
Un motor de extracción a nivel de producción que funciona desde el primer día.

No necesitas construir tu propia plataforma de inteligencia documental.
Necesitas una que funcione.

🚀 ¿Quieres verlo en acción?

Permítenos probar anyformat con tus documentos.

Descubre cómo es una extracción precisa.

📧 info@anyformat.ai 🌐 anyformat.ai

Compara anyformat: vs ChatGPT, Claude y Gemini · vs LlamaParse · vs Unstructured · Todas las comparaciones →

🧾 Resumen de la metodología

Documentos analizados: más de 1.000 archivos reales [1]
Tablas evaluadas: ~1.130, con HTML validado manualmente
Métrica: Distancia de edición normalizada [2]
Modelos: Claude 3.7 Sonnet, Claude 3.5 Sonnet, Claude 3 Haiku, Gemini 1.5 Pro, Gemini 1.5 Flash, Gemini 2.0 Flash, Gemini 2.5 Pro, GPT-4o, GPT-4o mini, GPT-4.1

📚 Bibliografía

[1] getOmni.ai. (2024). OCR Benchmark Dataset. Hugging Face.
[2] Zhong, Xu, et al. "Image-based table recognition: data, model, and evaluation." ECCV. Springer, 2020.

Por qué GPT por sí solo no es suficiente para la extracción real de documentos

Por qué GPT por sí solo no es suficiente para la extracción real de documentos

🧩 Los documentos reales son complejos — y eso importa

🧪 ¿Puede GPT hacer OCR? Sí. ¿Puedes confiar en él? A veces.

📉 Tablas: el punto débil silencioso de los pipelines documentales

📊 Benchmark: Precisión en tablas entre distintos LLM

🛠️ Nuestro enfoque: descomponer antes de extraer

🛠️ De hacerlo tú mismo a tenerlo resuelto

🚀 ¿Quieres verlo en acción?

🧾 Resumen de la metodología

📚 Bibliografía

Deja de procesar documentos manualmente

Por qué GPT por sí solo no es suficiente para la extracción real de documentos

Por qué GPT por sí solo no es suficiente para la extracción real de documentos

🧩 Los documentos reales son complejos — y eso importa

🧪 ¿Puede GPT hacer OCR? Sí. ¿Puedes confiar en él? A veces.

📉 Tablas: el punto débil silencioso de los pipelines documentales

📊 Benchmark: Precisión en tablas entre distintos LLM

🛠️ Nuestro enfoque: descomponer antes de extraer

🛠️ De hacerlo tú mismo a tenerlo resuelto

🚀 ¿Quieres verlo en acción?

🧾 Resumen de la metodología

📚 Bibliografía

Deja de procesar documentos manualmente