Ya es posible, de manera automática, detectar los discursos de odio en las redes sociales
COPE.- El equipo de investigación Sinai de la Universidad de Jaén y el equipo Tecnomod de la Universidad de Murcia han desarrollado un sistema automático de detección del discurso de odio en español en medios sociales. El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención, llamadas transformers. Éstas permiten saber cuáles son los significados que más influyen sobre una palabra en concreto, útil en casos de polisemia o anáfora. De esta forma, alcanza unos resultados cercanos al 90% de precisión. El desafío de esta herramienta de procesamiento del lenguaje natural es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.
El equipo de investigación Sinai de la Universidad de Jaén y el equipo Tecnomod de la Universidad de Murcia han desarrollado un sistema automático de detección del discurso de odio en español en medios sociales. El modelo combina el análisis de características lingüísticas con redes neuronales basadas en mecanismos de atención, llamadas transformers. Éstas permiten saber cuáles son los significados que más influyen sobre una palabra en concreto, útil en casos de polisemia o anáfora. De esta forma, alcanza unos resultados cercanos al 90% de precisión. El desafío de esta herramienta de procesamiento del lenguaje natural es agilizar la detección del lenguaje ofensivo para evitar su propagación masiva.
La ingente cantidad de publicaciones diarias en medios sociales hace que sea imposible revisar cada una de ellas. Para reducir el número de comentarios que deben ser revisados por expertos o incluso para el desarrollo de sistemas autónomos de detección, los investigadores proponen un modelo de identificación automática de discursos de odio destinado a frenar su dispersión. Estudios anteriores apuntan que la presencia de estos mensajes dirigidos a dañar por motivos de raza, género, orientación sexual, nacionalidad o religión en las plataformas de redes sociales se correlaciona con los delitos de odio en la vida real.
En concreto, los investigadores proponen un método que combina un sistema de extracción de características lingüísticas diseñado para el español y modelos computacionales. Para ello, se utiliza la plataforma denominada UMUTextStats, desarrollada por el grupo Tecnomod de la Universidad de Murcia, que obtiene de los textos características morfológicas, pragmáticas, semánticas, sintácticas, y de corrección y estilo, que reflejan qué quiere decir un texto dado y cómo lo dice.
A esto se suma un modelo del lenguaje basado en transformers, es decir, un sistema pre-entrenado que ha aprendido cómo se relacionan las palabras, expresiones y otras características del lenguaje a partir de un gran conjunto de datos.