Explora

Explora

La metodología del análisis textual digital presupone que los textos adquieren significado no de forma aislada, sino como un sistema, un gran corpus. En los grandes corpus textuales digitales pueden aparecen una y otra vez elementos que la lectura humana pasaría por alto al concentrarse únicamente en el detalle y lo lineal. El macroanálisis, la lectura maquínica o lectura distante, en palabras de Mathew Jockers, Stephen Ramsay o Franco Moretti, hace intervenir al elemento computacional y algorítmico y pone en juego métodos cuantitativos que no descartan los métodos cualitativos, pero donde la cantidad siempre precede a la calidad: primero las computadoras procesan datos y luego (idealmente) los humanos los leemos y entendemos en tanto texto.

En esta sección, ofrecemos algunas experiencias de análisis textual en textos de nuestra Biblioteca Digital: La Relación de las cosas sucedidas en el Río de la Plata de Pero Hernández, la Relación de un viaje al Río de la Plata de Acarete du Biscay, La Argentina Manuscrita de Ruy Díaz de Guzmán y Argentina y la conquista del Río de la Plata poema histórico de Martín del Barco Centenera y Viaje al Río de la Plara de Ulrico Schmidel.

Para una lectura macroanalítica más completa, los invitamos a consultar esta notebook.

Etiquetado morfosintáctico

El etiquetado morfosintáctico es un procedimiento de anotación automática que asigna una categoría gramatical (o parte del discurso, part-of-speech) a cada token de un texto. Esta técnica de permite visualizar dependencias sintácticas o investigar la correlación entre una determinada clase de palabras y otras características discursivas como polaridad de sentimientos o calidad de escritura.

dependencias acarete

Las categorías gramaticales identificadas en el etiquetado morfosintático pueden utilizarse para el análisis de coocurrencias y así lograr una aproximación rápida del contenido de un corpus textual. El análisis de coocurrencias mide la aparición de dos o más tokens dentro de un mismo contexto (oración, párrafo, etc.). El cálculo de coocurrencias de sustantivos en la Relación de un viaje al Río de la Plata, ilustrado en el siguiente grafo, por ejemplo, permite comprender fácilmente la relevancia de la dimensión comercial y de la descripción del territorio en el texto de Acarete du Biscay a través de la alta frecuencia de los pares “barco-mercadería”, “mina-plata”, “corona-libra”, en un caso, y “legua-río”, “ciudad-río”, “montaña-plata”, en el otro.

grafo cooc acarete

Etiquetado semántico

La anotación semántica normalmente busca distinguir las categorías de persona, lugar y evento. Pero también puede servirse de una taxonomía para identificar clases más específicas como jerarquías profesionales, divisiones administrativas o tipos de accidentes geográficos.

bar plot facciones

Este enriquecimiento semántico permite, por ejemplo, contabilizar la cantidad de personajes según origen, facción o cargo o trazar los cruces entre estas categorías a lo largo de la trama textual, como en el siguiente diagrama de narrativa de Relación de las cosas sucedidas en el Río de la Plata:

narrative chart

Topic modeling

El topic modeling es un método de organización de grandes corpus basado en aprendizaje automático. Esta técnica permite detectar los tópicos presentes en una colección textual, los documentos que responden a cada tópico y las palabras que lo representan sin necesidad de datos etiquetados.

topics pelagios

El siguiente gráfico muestra las diez palabras más representativas de cada tópico para una experiencia de modelización de tópicos para Relación de las cosas sucedidas, Relación de un viaje al Río de la Plata y La Argentina Manuscrita. El tópico 2 presenta palabras muy representativas de la Relación de las cosas sucedidas (el texto da cuenta del enfrentamiento entre Domingo de Irala y el Gobernador, Álvar Núñez) y el tópico 1 muestra palabras como “capitán” y “pedro”, muy caractrísticas de La Argentina Manuscrita (el texto relata la fundación de Asunción realizada por uno de los capitanes de Pedro de Mendoza). Es importante señalar que encontramos palabras repetidas entre tópicos (“río”, “indios”, “plata”), lo cual es lógico si tenemos en cuenta que los textos seleccionados tocan temas en común ya que todos tratan sobre la colonización de zona del Río de la Plata a fines del siglo XVI - principios del siglo XVII.

topics pelagios

Análisis estilométrico con Stylo

La estilometría es el estudio cuantitativo del estilo lingüístico de textos escritos. Este campo tiene diversos usos, como la determinación de la autoría de una obra y la autenticidad de textos o la clasificación de documentos, entre otros. El programa Stylo, desarrollado por Maciej Eder, Jan Rybicki, Mike Kestemont y Steffen Pielstroem permite realizar análisis estilométrico de manera sencilla y generar representaciones gráficas que facilitan la tarea de evaluar y visualizar similitudes o diferencias estilísticas.

Para una experiencia de análisis con Stylo, sumamos al corpus de nuestra Biblioteca Digital las siguientes obras:

  • Descripción e Historia del Paraguay y del Río de la Plata, Félix de Azara
  • Días de ocio, William H. Hudson
  • Viaje a la Patagonia Austral, Francisco Pascasio Moreno
  • Primer viaje alrededor del mundo, Antonio Pigafetta
  • Diario de un viaje a la costa de Patagonia, para reconocer los puntos en donde establecer poblaciones, Antonio de Viedma
  • Relación de la entrada de los Chiriguanos, Ruy Díaz de Guzmán.

En el siguiente dendrograma podemos observar los textos agrupados según su grado de cercanía estilística:

macroanalisis1

Los textos que se grafican en una misma rama poseen mayores similitudes estilísticas, mientras que las distancias mayores entre nodos representan diferencias estilísticas más marcadas. Así, en este análisis se pueden observar dos grandes ramas, en la superior se agrupan la mayoría de los textos, mientras que en la inferior, y más pequeña, se presenta un nodo que reúne dos obras estilísticamente similares por pertener a un mismo autor: La Argentina Manuscrita de Rui Díaz de Guzmán y un texto identificado como Chiriguanos, que corresponde a la “Relación de la entrada de los Chiriguanos” escrita por el mismo autor entre 1617 y 1618.

Es posible complementar y confirmar este análisis sometiendo el corpus a otros algoritmos de análisis estilométrico. Los árboles de consenso, por ejemplo, son producidos por algoritmos iterativos que aseguran resultados más robustos.

macroanalisis2

El árbol de consenso de nuestro corpus confirma la autoría del texto Chiriguanos al agruparlo junto a la otra obra de Díaz de Guzmán analizada. Este modelo es una herramienta poderosa para la estilometría que facilita la comparación y verificación de autorías.