Que no te confunda el porcentaje de OCR – Blog de Fermin Fernandez

Todavía sigo viendo proyectos en los que se mide el éxito de un sistema de captura de datos en base al porcentaje de acierto del OCR. Incluso en algunas pruebas de concepto el cliente todavía tiende a comparar las distintas soluciones en función de los porcentajes de extracción obtenidos.

Supongo que en parte ha sido culpa nuestra, de los proveedores de tecnología, que en el pasado nos centrábamos mucho en este parámetro y siempre intentábamos mejorarlo lo máximo posible en las implementaciones. Este año Kofax sacó una publicación en torno a este tema: The truth about ocr accuracy, que quiero difundir entre todos los que estén interesados en capturar datos de documentos.

La cuestión básica es que el porcentaje de captura (o de OCR) no es un parámetro significativo para el negocio. Por ejemplo, ¿qué decisión puede tomar un directivo si le contamos que una solución tiene un porcentaje de captura del 80% y otra solución tiene un porcentaje del 70%? Pues posiblemente ninguna! ¿Cómo podría entender la repercusión de cualquiera de ellas en su negocio? o cómo calcularía un posible retorno de la inversión? No podría! Y lo más probable es que solicite más información para entender las implicaciones que tiene el proyecto en su negocio.

Sería demasiado simple pensar que la primera solución es mejor solamente con este dato. ¿Qué ocurriría si esta primera solución tiene menos funciones para facilitar la gestión de las excepciones (los datos que no han podido ser capturados)? Supongamos que con la primera solución se tarda el doble de tiempo en solventar cada excepción. Con esta hipótesis podría ser más rápido arreglar el 30% de excepciones de la segunda solución que el 20% de excepciones de la primera. Es decir, la segunda solución sería más efectiva de cara al negocio, ofreciendo mayores beneficios al cliente. De hecho, cuanto mayor sea el volumen de documentos a procesar mayor será el beneficio en comparación con la primera solución. En la publicación mencionada anteriormente se describen técnicas que facilitan la gestión de excepciones.

Otro factor que puede alterar nuestra percepción es el umbral de reconocimiento (probabilidad límite para aceptar un dato como correcto). Es un número (entre 1 y 100) que se define manualmente. Normalmente sólo se aceptan datos con un umbral de reconocimiento alto (por ejemplo, mayor del 80%). Si la primera solución ha bajado mucho este umbral (pongamos que al 25%) es posible que acierte alguna vez y eso aumenta su porcentaje de acierto pero ya no te puedes fiar de los datos que devuelve porque muchos serán incorrectos. Por ello toda la información se deberá confirmar manualmente (hay que validarlo todo porque no se sabe cuándo acertará).

Si la segunda solución ha puesto un umbral más alto, garantiza una mejor calidad de la información extraída pero al rechazar más datos se penalizará su porcentaje de acierto. La paradoja es que ambos podrían estar devolviendo exactamente los mismos datos pero la segunda solución parecería peor. En ambos casos el usuario deberá gestionar el dato manualmente (o por validación o por rechazo), por lo que vuelve a ser más relevante el tiempo que necesita el empleado en gestionar las excepciones.

En resumen, el porcentaje de OCR es un dato indicativo pero no suficiente. Lo que realmente interesa conocer es el tiempo total que se tarda en procesar un documento de media, desde el principio hasta el final. Este tiempo dependerá tanto del porcentaje de OCR como de la rapidez en gestionar las excepciones. Con esta información sí se pueden tomar decisiones. Por ejemplo, si una solución me permite procesar documentos en 70% menos tiempo que hoy en día manualmente, muy posiblemente me interese implementarla. Si la solución A me permite procesar 1000 documentos al día y la solución B procesa 800 documentos al día, ya puedo calcular cual me va a ofrecer un mejor retorno de la inversión.

Si aun así alguien está solamente interesado en el porcentaje de OCR mi recomendación sería que eligiera simplemente un motor de OCR (los hay incluso gratuitos) y no una solución completa de captura.

Finalmente quisiera resaltar que en la implementación moderna de este tipo de soluciones, donde se tratan documentos cada vez más complejos, el porcentaje de OCR es cada vez menos relevante. Tradicionalmente, trabajando con documentos más estructurados, se han utilizado sistemas basados en reglas para capturar información. Íbamos añadiendo más y más reglas para ir mejorando dicho porcentaje, pero cada vez se hacía más complicado porque cada nueva regla afectaba a las anteriores, por lo que la mejora acaba estancándose en algún momento. Hoy en día los proyectos capturan documentos más complejos como hipotecas, escrituras, actas, etc. y se basan mayoritariamente en técnicas de Machine Learning. Es decir, se deja que el sistema vaya aprendiendo solo a medida que procesa documentación. No se implementan reglas. El problema de esta técnica de inteligencia artificial es que necesita muchas muestras para aprender bien. Como no se suelen tener tantos ejemplos, los proyectos comienzan con porcentajes más bajos de reconocimiento y todo el foco de la implementación se pone en el diseño de formularios eficaces para la corrección e introducción de datos. El retorno de la inversión no es tan rápido pero el coste de procesar manualmente estos documentos complejos es muy alto y con el paso del tiempo (y documentos) la solución va aprendiendo sin parar y el ahorro acaba siendo significativo.

Deja una respuesta Cancelar la respuesta