Navegando la diversidad lingüística en las interacciones entre humanos y robots
En el dinámico mundo de las interacciones entre humanos y robots, un desafío fundamental reside en abordar eficazmente la amplia diversidad lingüística que presentan los individuos. Hoy en día, muchas personas dominan dos o incluso tres idiomas, incluyendo su lengua materna y el inglés, y además aprenden otros a través de la educación formal. Para facilitar una interacción fluida con personas multilingües, un robot social debe poseer la capacidad de comprender e interactuar en varios idiomas, garantizando una experiencia verdaderamente inclusiva y enriquecedora.
Tomemos el ejemplo de Alex y su robot acompañante, Miko. Alex domina el inglés, pero también está aprendiendo español en su escuela. Habla con Miko principalmente en inglés, pero a veces le gustaría cambiar al español para mejorar su conversación. Por lo tanto, Miko necesitaría comprender y responder en ambos idiomas.
En nuestro blog anterior, "Enseñar a los robots a conversar" , desciframos los pasos necesarios para convertir una consulta de un usuario en una respuesta de un robot. En este artículo, abordaremos la diversidad lingüística en las interacciones entre humanos y robots, explorando las complejidades y las posibles soluciones para que los robots comprendan y respondan eficazmente a personas que hablan en diversos idiomas.
Incrustaciones de oraciones multilingües
La extracción de incrustaciones, que consiste en convertir consultas en lenguaje natural en representaciones vectoriales densas que capturan el significado semántico, constituye un paso importante en la automatización de las interacciones entre humanos y robots. Las incrustaciones codifican la información contextual y semántica de la consulta, lo que permite a los modelos de aprendizaje automático procesar y comprender la intención de la consulta eficazmente y formular una respuesta adecuada. En un escenario multilingüe, las incrustaciones generadas deben capturar las similitudes y relaciones entre oraciones, palabras y frases en diferentes idiomas, lo que facilita la comprensión y el análisis interlingüísticos. En otras palabras, las oraciones y frases en diferentes idiomas se representan en el mismo espacio vectorial, con la propiedad de que las palabras, frases y oraciones con significados similares, aunque estén en idiomas diferentes, deben estar próximas entre sí en dicho espacio vectorial.
Consideremos un ejemplo de oraciones en inglés y español que significan lo mismo: "¿Cómo estás?" y "¿Cómo estás?". Cuando se representan en un espacio vectorial multilingüe mediante incrustaciones de oraciones multilingües, aparecen juntas (véase la Figura 1). De forma similar, "¿Cuál es tu nombre?" y "¿Cómo te llamas?" (que significan lo mismo en francés), aparecen juntas en el espacio vectorial multilingüe.

Figura 1: Las oraciones en diferentes idiomas con significados similares aparecen juntas en la incrustación multilingüe
Creación de incrustaciones multilingües
Las incrustaciones multilingües se pueden generar mediante el uso de modelos lingüísticos a gran escala y técnicas de entrenamiento que aprovechan grandes cantidades de datos textuales multilingües. Los datos de entrenamiento pueden incluir páginas web, libros, artículos y otras fuentes textuales disponibles en diferentes idiomas. Numerosos estudios sugieren enfoques de entrenamiento alternativos que ofrecen una ejecución rápida y una menor demanda de datos de entrenamiento. La destilación de conocimiento es una de estas técnicas, propuesta por Reimers y Gurevych, que se basa en la idea de que una oración traducida debe corresponder a la misma ubicación en el espacio vectorial que la oración original. En este enfoque, se utiliza un modelo monolingüe (modelo del profesor) para generar las incrustaciones de oraciones para el idioma de origen y se entrena un nuevo sistema (modelo del estudiante) con oraciones traducidas para imitar el modelo monolingüe original. Esto permite una fácil extensión de los modelos monolingües existentes para la incrustación multilingüe con relativamente pocas muestras de entrenamiento.
Artetxe y Shwenk proponen un innovador método de cero disparos para generar incrustaciones multilingües utilizando un único modelo lingüístico universal, entrenado en un conjunto de datos multilingüe. En el procesamiento del lenguaje natural (PLN), el método de cero disparos se refiere a la capacidad de un modelo para realizar una tarea en un idioma para el que no fue entrenado específicamente. Normalmente, los modelos de PLN se entrenan con datos etiquetados en distintos idiomas para aprender patrones y asociaciones cruciales para tareas como la clasificación de textos o la traducción automática. Sin embargo, la estrategia de cero disparos extiende este conocimiento adquirido a otros idiomas, lo que permite a los modelos predecir y generar resultados en idiomas en los que no han recibido entrenamiento directo.
BERT (Representaciones de Codificador Bidireccional de Transformers) es un potente modelo de representación del lenguaje de la familia de arquitecturas Transformer, presentado por Google en 2018. SBERT (Sentence-BERT), basado en la arquitectura BERT, genera representaciones semánticamente significativas (incrustaciones) de oraciones, capturando sus similitudes contextuales y semánticas. SBERT es compatible con modelos monolingües y multilingües.
La incrustación de oraciones agnóstica del lenguaje (LaBSE), otra extensión de BERT, permite generar incrustaciones de oraciones que capturan similitudes contextuales y semánticas en 109 idiomas. LaBSE funciona combinando técnicas de modelado lingüístico enmascarado (MLM) y modelado lingüístico de traducción (TLM) durante su proceso de entrenamiento para aprender representaciones monolingües e interlingüísticas. Otros trabajos destacados incluyen Cohere , un modelo de incrustación multilingüe que proporciona representaciones de texto agnósticas del lenguaje en más de 100 idiomas, y LASER , una biblioteca de Meta, que calcula incrustaciones multilingües en 9 idiomas europeos.
Resumen de pasos
El diagrama de flujo a continuación resume los pasos para generar incrustaciones multilingües que aborden la diversidad lingüística en las conversaciones entre humanos y robots. El primer paso consiste en recopilar un corpus de texto multilingüe relevante y completo que sirva como datos de entrenamiento. Tras la recopilación de datos, se inicia una etapa de preprocesamiento que incluye tareas esenciales como la limpieza de datos, la tokenización, la eliminación de la puntuación y la tokenización específica del idioma.

Figura 2: Pasos para generar incrustaciones multilingües
El siguiente paso fundamental es diseñar un modelo de incrustación (generalmente basado en la arquitectura de transformadores) que capture la información conceptual y semántica del texto. Este modelo se entrena rigurosamente con el corpus de texto multilingüe y sus parámetros se ajustan mediante técnicas como la retropropagación y el descenso de gradiente. Este modelo entrenado se utiliza para extraer incrustaciones de palabras, frases u oraciones individuales que capturan la información semántica y las relaciones entre idiomas.
Una vez realizada la extracción de incrustación independiente del lenguaje, la inferencia de intención a través de la búsqueda de similitud y la formulación de respuestas son los siguientes pasos antes de que su robot esté listo para participar en conversaciones humanas.
Adopción de múltiples lenguajes: una forma de lograr que los robots hablen con todo el mundo
Al superar las barreras lingüísticas mediante técnicas de PNL independientes del idioma, permitimos que personas de diversos orígenes lingüísticos interactúen con robots sociales en sus lenguas maternas, promoviendo así un sentido de pertenencia y empoderamiento. Mediante la integración de oraciones multilingües basadas en la arquitectura BERT, Miko, el innovador robot acompañante, facilita la comunicación sin barreras para comprender y responder a las consultas de los usuarios, independientemente del idioma.
Manténgase atento al próximo blog donde profundizaremos en la inferencia de intenciones, el siguiente paso en la decodificación de las interacciones entre humanos y robots.