Desarrollo de un modelo de data analytics aplicado a la Imagen País utilizando Big Data, Machine Learning e Inteligencia Artificial

Captura de información, en redes sociales y noticias, sobre la percepción de líderes de opinión del extranjero sobre México, utilizando: Web scraping, para la recolección de la información; Procesamiento de lenguaje Natural (NLP), para la identificación de palabras sobresalientes al tema y su clasificación; Aprendizaje de Máquina, para construir las categorías de los puntos de vista; y posterior, identificación de nuevos textos y modelos estadísticos reportando las categorías de la percepción.

Se ha trabajado con períodos sexenales sincronizados con el período presidencial mexicano, tomando un primer período para generar el aprendizaje de máquina, aplicando dicho aprendizaje a un segundo período y ajustando los modelos de percepción y las categorías.

Entre las herramientas que utilizamos se encuentran:

  1. Construcción de un modelo de objetos clasificados con bolsas de palabras, usando PLN (procesamiento de lenguaje natural) y módulo de biblioteca SPACY.
  2. Aprendizaje de Máquina mediante el sistema de bolsas de palabras a partir de un período conocido de 6 años y para identificar un nuevo período de 6 años subsecuentes.
  3. Web scraping a textos de twitter y noticias periodísticas de personajes públicos y cadenas de noticieros de países diferentes de México.

Las aportaciones e incidencia social son:

  1. Aportación en el sistema de clasificación de textos
  2. Aportación en el sistema de almacenamiento de bolsas de palabras.
  3. Aportación en el sistema de Aprendizaje de Máquina y su aplicación a nuevos textos.
  4. Incidencia social en la identificación de la percepción de México mediante un sistema de categorías para promover acciones que ayuden a mejorar la percepción desde el extranjero.
  5. Incidencia social al ser un modelo aplicable a otras condiciones de manejo de textos y categorización mediante NLP.