Lab

Lab

Párrafo de intro. Experiencias de análisis textual estadístico en textos del corpus Pelagios al Sur: Relación de las cosas sucedidas en el Río de la Plata de Pero Hernández, Relación de un viaje al Río de la Plata de Acarette du Biscay y La Argentina Manuscrita de Ruy Díaz de Guzmán.

Etiquetado morfosintáctico

El etiquetado morfosintáctico es un procedimiento de anotación automática que asigna una categoría gramatical (o parte del discurso, part-of-speech) a cada token de un texto. Esta técnica de permite desde visualizar dependencias sintácticas hasta investigar la correlación entre una determinada clase de palabras y otras características discursivas como polaridad de sentimientos o calidad de escritura.

dependencias acarete

Las categorías gramaticales pueden utilizarse para el análisis de coocurrencias y así lograr una aproximación rápida del contenido de un corpus textual. El análisis de coocurrencias mide la aparición de dos o más tokens dentro de un mismo contexto (oración, párrafo, etc.). El cálculo de coocurrencias de sustantivos en Relación de un viaje al Río de la Plata ilustrado en el siguiente grafo, por ejemplo, permite comprender fácilmente la relevancia de la dimensión comercial y de la descripción del territorio en el texto de Acarette du Biscay: frecuencia alta de los pares “barco-mercadería”, “mina-plata”, “corona-libra”, en un caso y “legua-río”, “ciudad-río”, “montaña-plata”, en el otro.

grafo cooc acarete

Etiquetado semántico

La anotación semántica normalmente busca distinguir las categorías de persona, lugar y evento. Pero también puede servirse de una taxonomía para identificar clases más específicas como jerarquías profesionales, divisiones administrativas o tipos de accidentes geográficos.

bar plot facciones

Este enriquecimiento semántico permite, por ejemplo, contabilizar la cantidad de personajes según origen, facción o cargo o trazar los cruces entre estas categorías a lo largo de la trama textual, como en el siguiente diagrama de narrativa de Relación de las cosas sucedidas en el Río de la Plata:

narrative chart

Macroanálisis

El topic modeling es un método de organización de grandes corpus basado en aprendizaje automático. Esta técnica permite detectar los tópicos presentes en una colección textual, los documentos que responden a cada tópico y las palabras que lo representan sin necesidad de datos etiquetados.

topics pelagios

El siguiente gráfico muestra las diez palabras más representativas de cada tópico para una experiencia de modelización de tópicos para Relación de las cosas sucedidas, Relación de un viaje al Río de la Plata y La Argentina Manuscrita. El tópico 2 presenta palabras muy representativas de la Relación de las cosas sucedidas (el texto da cuenta del enfrentamiento entre Domingo de Irala y el Gobernador, Álvar Núñez) y el tópico 1 muestra palabras como “capitán” y “pedro”, muy caractrísticas de La Argentina Manuscrita (el texto relata la fundación de Asunción realizada por uno de los capitanes de Pedro de Mendoza). Es importante señalar que encontramos palabras repetidas entre tópicos (“río”, “indios”, “plata”), lo cual es lógico si tenemos en cuenta que los textos seleccionados tocan temas en común ya que todos tratan sobre la colonización de zona del Río de la Plata a fines del siglo XVI - principios del siglo XVII.

topics pelagios