Data annotation: cómo impactan las condiciones de trabajo en la calidad de los modelos de Inteligencia Artificial

El proceso de anotación de datos –especialmente la actividad de etiquetado de los datos eficiente a escala para proyectos de aprendizaje automático- presenta diversas complejidades. Dado que los datos son la materia prima sobre la cual se construyen los proyectos de aprendizaje automático, propiciar su calidad es fundamental. Si las etiquetas carecen de precisión y calidad, todo un proyecto altamente complejo basado en inteligencia artificial puede verse afectado al invalidar modelos predictivos.  ¿Te has preguntado alguna vez cuáles son las condiciones de producción de esos datos?

Esa fue la pregunta que orientó la investigación de Milagros Miceli, una socióloga PHD candidate en Computer Science en TUBerlin. Según Miceli, es crucial que las personas encargadas de llevar a cabo las  tareas de anotación de datos conozcan el contexto de su trabajo: para qué están realizando el etiquetado y cuáles son los objetivos del proyecto del cual son un eslabón crucial. Es relevante además que tengan conciencia del impacto de su trabajo sobre la calidad final del dataset, y por lo tanto, que sus tareas sean reconocidas y valoradas. 

Es sabido que la preparación, carga y limpieza suelen demandar hasta un 45% del tiempo que se le dedica al trabajo con datos. Luego, la aplicación de ontologías complejas, atributos y varios tipos de anotaciones para entrenar e implementar los modelos de aprendizaje automático suman más dificultad. Por ello, capacitar a las personas encargadas de las tareas de data annotation, garantizar sus condiciones de trabajo y velar por su bienestar es central para mejorar las posibilidades de que el etiquetado resulte con la calidad esperada. 

El gran desafío: procesamiento y etiquetado de datos

Actualmente, las empresas tienen abundancia de datos, hasta podría decirse que exceso. El gran desafío es cómo procesarlos y etiquetarlos para que sean utilizables. Los datos etiquetados con precisión colaboran para que los sistemas de aprendizaje automático establezcan modelos confiables para el reconocimiento de patrones, lo que constituye la base de cada proyecto de IA. 

Como el etiquetado de datos requiere gestionar un gran volumen de trabajo, muchas veces las empresas necesitan buscar un equipo externo. En esas circunstancias, es vital asegurar una comunicación y colaboración fluidas entre los etiquetadores y los científicos de datos para mantener el control de calidad, validar los datos y resolver los problemas y dudas que puedan surgir. 

Además de los temas idiomáticos y geográficos existen otros aspectos que pueden impactar en la interpretación de los datos y, por lo tanto, en la correcta anotación y etiquetado de los mismos. La experiencia del anotador en el dominio específico y sus asociaciones culturales imprimirán un sesgo que sólo podrá ser controlado si hay conciencia de esto durante el proceso. Cuando no existe una única respuesta “correcta” para los datos subjetivos, el equipo de operaciones de datos puede establecer instrucciones claras para guiar cómo las personas que realizan la anotación comprenden cada punto de datos.

¿Cuáles son las condiciones de producción de los datasets?

Existen estudios que ponen el foco en el problema del sesgo individual del anotador en la tarea de anotación de datos. Sin embargo, también hay nuevas líneas de investigación, como las presentadas por Milagros Miceli, que destacan las asimetrías de poder implícitas en las condiciones de producción de los datasets. Desde esta perspectiva, dado que los anotadores siguen las instrucciones exactas proporcionadas por los clientes, la interpretación de los datos que realizan “está profundamente limitada por los intereses, valores y prioridades de las partes interesadas con más poder (financiero)”. Es decir, que las interpretaciones y las etiquetas “se imponen verticalmente a los anotadores y, a través de ellos, a los datos”. Por lo tanto, sería incorrecto naturalizar los poderes jerárquicos que operan detrás de los procesos de anotación. 

© Milagros Miceli, Martin Schuessler/ Weizenbaum Institute

Incluso en el caso de que los datos sean presuntamente más “objetivos”, también se presentarán desafíos, especialmente si los analistas de etiquetado no conocen el contexto de su trabajo y no cuentan con buenas instrucciones y procesos de retroalimentación. 

Sin dejar de lado los distintos factores que intervienen en la anotación de datos, lo que se observa en la práctica es que la formación es un aspecto importante de este proceso, ya que ayuda a “que los anotadores comprendan adecuadamente el proyecto y produzcan anotaciones que sean válidas (precisas) y fiables (coherentes)” dentro del marco del mismo, como indican Tina Tseng, Amanda Stent y Domenic Maida en este estudio de Bloomberg.

En ese sentido, se pueden usar guías o pautas escritas del proyecto -que deben detallar claramente los parámetros, describir la funcionalidad de la plataforma de anotaciones y sumar ejemplos representativos- como herramienta para capacitar a los equipos, ofreciendo además retroalimentación coherente con dichas pautas. 

Comprender el problema

En Arbusta procuramos que los analistas de etiquetado de datos se involucren en el proyecto, comprendan el contexto, reciban el acompañamiento necesario y dialoguen con los equipos del cliente. 

Por ejemplo, en el caso de Mercado Libre -la plataforma líder de comercio y pagos electrónicos en América Latina-, nuestros equipos acompañaron el proceso para escalar los modelos de machine learning supervisados que se utilizan para garantizar que el marketplace brinde un entorno seguro. Concretamente, desde Arbusta nos ocupamos de las tareas manuales: etiquetar imágenes y texto para ayudar al modelo a completar sus ciclos de desarrollo, particularmente en la etapa de entrenamiento, para que sea más preciso y actualizado. 

Como parte de los servicios de capacitación en aprendizaje automático de Arbusta, los equipos se acoplaron a los del cliente para que conocieran el modelo que, en este caso, estaba pensado para detectar fraude en las publicaciones de Mercado Libre. El servicio de etiquetado se utilizó, por un lado, para detectar logotipos originales (anotación de imagen) y, por el otro, para verificar que los campos de texto de cada publicación estuvieran correctamente completados.

“El hecho de incorporar a Arbusta impacta en las métricas de eficiencia de los modelos porque nos permitió escalar el etiquetado de párrafos que genera un dataset de mayor tamaño y calidad, claves para el entrenamiento de nuestros modelos. Los equipos logran acoplarse a nuestra dinámica. Intentan desde el día uno entender de qué manera pueden acoplarse a ese flujo de trabajo dándole continuidad”. Raúl Juarez, Machine Learning Senior Manager en Mercado Libre.  

Para encarar esta tarea, desde Arbusta buscamos en primer lugar un entendimiento del problema, lo que resultó clave para seguir adelante con el mismo objetivo. Posteriormente, los data labelers de Arbusta conocieron el modelo desarrollado por el cliente y encontraron la mejor opción para detectar los insumos que requería el sistema. Además, se propiciaron encuentros entre los equipos de Arbusta y los de Mercado Libre, donde a partir de esa integración, se garantiza un resultado de calidad. 

Puedes conocer más sobre nuestro servicio de Machine Learning Training aquí.  

MÁS ACERCA DE ARBUSTA

> Conoce Arbusta<

> Nuestra magia <