AUTORES

Joydeep Dey
Head of Data Enablement
@BIP xTech UK

La IA generativa ha experimentado un ascenso meteórico en los últimos doce meses. Desde el lanzamiento del modelo de lenguaje basado en IA ChatGPT en noviembre de 2022, las visitas mensuales al sitio ya han alcanzado los 1.500 millones. Las empresas financieras se han dado cuenta de ello, y la IA se ha convertido rápidamente en la nueva frontera para la inversión de capital privado. En el segundo trimestre de 2023, la financiación de capital privado en startups de IA Generativa superó los 14.100 millones de dólares, 11.600 millones más que en 2022.

Evidentemente, la IA ha llegado para quedarse. Sin embargo, uno de los principales debates que se plantean es la calidad de los datos y cómo ésta influye en los resultados generados por la IA. No se trata de una preocupación novedosa. Ya en 2018, la herramienta de reclutamiento de IA de Amazon mostró sesgos contra las mujeres. Debido a conjuntos de datos limitados basados en currículos predominantemente masculinos, la herramienta rebajó las solicitudes con la palabra «mujeres».

Ya se ha hablado mucho sobre cómo la calidad de los datos puede influir en los resultados de la IA generativa. Pero ¿cómo pueden asegurarse los desarrolladores de que están utilizando los mejores datos de entrenamiento para crear un modelo de IA eficaz?

¿Se pueden hacer ladrillos sin una buena arcilla?

No se puede negar que la IA está transformando a mejor muchos ámbitos de la sociedad. Los resultados preliminares del uso de la IA en la detección del cáncer de mama han demostrado que casi reduce a la mitad la carga de trabajo humano. Sin embargo, los sesgos que podrían acompañar a las herramientas de IA en la selección de personal, los recursos humanos o en el desarrollo de políticas son una perspectiva preocupante que hay que abordar.

Para la gran mayoría de las empresas, la atención debe centrarse en adoptar medidas prácticas en las fases iniciales del despliegue de la IA para ayudar a mitigar cualquier discrepancia. Los algoritmos de IA dictan los resultados de estos modelos, permitiéndoles realizar tareas a un ritmo más rápido y eficiente.

Un ejemplo reciente de Octopus Energy muestra el potencial de la IA en la atención al cliente. Los correos electrónicos automatizados con IA lograron un índice de satisfacción del cliente del 80%, un 15% más que el personal cualificado y formado. Estos algoritmos permiten a los modelos aprender, analizar datos y tomar decisiones basadas en ese conocimiento. Pero la IA en tiempo real exige grandes cantidades de datos, por lo que es crucial obtenerlos y utilizarlos de forma ética.

Empezar con datos de diversas fuentes y asegurarse de que son representativos de toda la población ayudará a mitigar los posibles sesgos e imprecisiones que podrían surgir en el caso de un subconjunto reducido de datos. La creación de equipos de ingeniería de datos diversos para la IA y el aprendizaje automático, que reflejen a las personas que utilizan y se ven afectadas por el algoritmo, también ayudará a reducir estos sesgos con el tiempo.

Tener en cuenta los sesgos a nivel de datos puede ser más difícil, especialmente en el caso de los algoritmos de aprendizaje no supervisado. Cualquier defecto en el conjunto de datos original se manifestará en los modelos generados. Por tanto, diseñar las herramientas para filtrar los sesgos puede reducir la calidad del modelo. Aquí es donde se están desarrollando enfoques «out-of-the-box» de los conjuntos de reglas para obtener mejores resultados.

¿Cómo podemos ayudarle?

Póngase en contacto con los expertos de BIP xTech

Contáctenos

¿Seguir a la multitud o romper el molde?

Los métodos convencionales de obtención de datos, como el etiquetado de datos, en el que se añaden descripciones o marcadores claros para ayudar a categorizar grandes conjuntos de datos, se basan en buenas prácticas establecidas. Pueden ayudar a obtener resultados fiables si la calidad de los datos es alta. Sin embargo, los datos de mala calidad propagan sesgos, y a menudo es difícil romper con estos métodos establecidos. Por eso, en el último año, cada vez más empresas tecnológicas se están alejando de estos métodos y utilizan grandes modelos de lenguaje (LLM) para poner en marcha el proceso de análisis de datos.

Los LLM son un tipo de algoritmo de IA que utiliza el aprendizaje profundo para clasificar y categorizar grandes conjuntos de datos con el fin de lograr una mayor eficiencia y velocidad en su funcionamiento. Gracias a sus capacidades de comprensión y generación del lenguaje, los LLM pueden detectar posibles discrepancias en los datos que podrían propagar resultados sesgados. Las plataformas personalizadas con LLM están empezando a filtrarse en diferentes sectores, uno de los cuales es la ciberseguridad. Las grandes empresas tecnológicas buscan expandirse en este espacio, por ejemplo, Google anunció recientemente su Google Cloud Security AI Workbench.

Sin embargo, un problema es que los LLM pueden ser manipulados para filtrar información, especialmente si se añade información engañosa a los datos de entrenamiento utilizados para afinar el modelo. Para los usuarios puede ser difícil verificar si los datos de entrenamiento iniciales han sido manipulados, ya que a menudo la información o la transparencia disponibles sobre la integridad de los datos de entrenamiento son limitadas. A pesar de ello, es alentador que estas nuevas tecnologías puedan ayudar a identificar información potencialmente incorrecta o engañosa.

Dado que estas tecnologías aún se encuentran en fase de desarrollo, sería perjudicial abandonar por completo las funciones predictivas más tradicionales, como el etiquetado de datos, sobre todo cuando es posible que los LLM no comprendan del todo las complejidades de determinados tipos de datos o contextos, lo que hace necesaria el etiquetado humano para mejorar la precisión.

¿Proporcionará la próxima normativa una respuesta?

Ahora que el Gobierno británico va a publicar una serie de pruebas que deben cumplirse para aprobar nuevas leyes sobre IA, los gobiernos y bloques comerciales de todo el mundo se han apresurado igualmente a implantar sus propios marcos. Aunque el enfoque más cauto del Reino Unido contrasta con la Ley de IA de la UE, que lo abarca todo, está claro que la regulación, estricta o no, desempeñará un papel clave para garantizar que las organizaciones utilicen datos de entrenamiento de alta calidad. Desde la transparencia de las fuentes de datos y la responsabilidad sobre los datos hasta el fomento del intercambio de estos entre organizaciones, la regulación ayudará a garantizar que los modelos sean justos.

Sin embargo, la viabilidad de la regulación de la IA está resultando problemática, ya que aún se está debatiendo qué se entiende por IA de alto riesgo. La reciente Ley de Inteligencia Artificial de la UE ofrece soluciones creíbles a los problemas de calidad de los datos, ya que la nueva legislación se centra en reforzar las normas relativas a la calidad de los datos y la responsabilidad. Los proveedores de IA tendrán que garantizar que los sistemas de IA cumplen los requisitos de riesgo, incluidos los datos registrados y los recursos de formación, así como un sistema de gestión que supervise la calidad de los datos.

Para las organizaciones que actualmente utilizan IA, la implantación de su propio conjunto interno de normas de IA que responsabilice a las personas del etiquetado preciso de los datos y compruebe periódicamente cualquier error o incoherencia, ayudará a abordar los problemas que surjan.

Al promover los estándares de calidad de los datos y la gobernanza de la IA, las empresas pueden mejorar la precisión y la imparcialidad de sus modelos de IA, sin dejar de cosechar los frutos de la floreciente tecnología.

Para obtener más información sobre la gobernanza de la IA, lea el artículo relacionado: Gobernanza para la IA generativa.

Para más información sobre ChatGPT, lea el artículo relacionado: ChatGPT – a fleeting novelty or a stable operational, fully deployable technology?

AUTORES

Joydeep Dey
Head of Data Enablement
@BIP xTech UK

Hacer ladrillos con arcilla mala: No descuide la calidad de los datos al entrenar la IA

¿Se pueden hacer ladrillos sin una buena arcilla?

¿Cómo podemos ayudarle?

¿Seguir a la multitud o romper el molde?

¿Proporcionará la próxima normativa una respuesta?

Leer más opiniones

Contactenos