La Inteligencia Artificial al rescate del Siglo de Oro: transcripción y modernización automática de mil trescientos impresos y manuscritos teatrales

Authors

DOI:

https://doi.org/10.13035/H.2023.11.01.08

Abstract

Un elevado porcentaje de impresos y manuscritos teatrales del periodo aurisecular no ha sido nunca transcrito en un formato analógico ni, por supuesto, digital. Es imposible, por tanto, emplear estos documentos para realizar búsquedas de nuestro interés o para los valiosos análisis informáticos (estilometría, topic modelling, detección de sentimientos, etc.) que se están desarrollando en los últimos años. Gracias a la Inteligencia Artificial (Transkribus) y técnicas de HTR (Handwritten Text Recognition) he entrenado tres modelos, públicos ya para la comunidad investigadora, capaces de transcribir y modernizar ortográficamente estos documentos de forma automática con un alto grado de precisión: alrededor del 97% de acierto en impresos y 91% en manuscritos. A través de estos modelos he podido procesar unas 1.300 obras teatrales contenidas en impresos y manuscritos procedentes de numerosas bibliotecas, archivos y otras fuentes digitalizadas. Las transcripciones resultantes forman ahora parte del proyecto ETSO, del buscador TEXORO y, además de suponer un avanzado punto de partida para la edición cuidada de los textos, cuentan por sí mismas con la calidad suficiente para ser sometidas a análisis estilométricos, los cuales están arrojando atribuciones autoriales de interés.

Downloads

Download data is not yet available.

References

Aranda García, Nuria, «Humanidades Digitales y literatura medieval española: la integración de Transkribus en la base de datos COMEDIC», Historias Fingidas, Número Especial 1 Humanidades Digitales y estudios literarios hispánicos, 2022, pp. 127-149.

Ayuso García, Manuel, «Las ediciones de Arnao Guillén de Brocar de BECLaR transcritas con ayuda de Transkribus y OCR4all: creación de un modelo para la red neuronal y posible explotación de los resultados», Historias Fingidas, Número Especial 1 Humanidades Digitales y estudios literarios hispánicos, 2022, pp. 151-173.

Bazzaco, Stefano, «El reconocimiento automático de textos en letra gótica del Siglo de Oro: creación de un modelo HTR basado en libros de caballerías del siglo XVIen la plataforma Transkribus», Janus. Estudios sobre el Siglo de Oro, 9, 2020, pp. 534-561.

Bazzaco, Stefano, et al., «Sistemas de reconocimiento de textos e impresos hispánicos de la Edad Moderna. La creación de unos modelos de HTR para la transcripción automatizada de documentos en gótica y redonda (s. XV-XVII)», Historias Fingidas, Número Especial 1 Humanidades Digitales y estudios literarios hispánicos, 2022, pp. 67-125.

Blasut, Giada, «Los modelos de HTR Silves1549_BNE y Spanish Gothic como herramientas de la labor ecdótica», Historias Fingidas, Número Especial 1 Humanidades Digitales y estudios literarios hispánicos, 2022, pp. 175-193.

Camps, Jean-Baptiste, Clérice, Thibault, y Pinche, Ariana, «Noisy medieval data, from digitized manuscript to stylometric analysis: Evaluating Paul Meyer’s hagiographic hypothesis», Digital Scholarship in the Humanities, 36, 2, 2021, pp. ii49–ii71, https://doi.org/10.1093/llc/fqab033.

Cuéllar, Álvaro, «Spanish Golden Age Manuscripts (Spelling Modernization) 1.0», Transkribus, 2021a.

Cuéllar, Álvaro, «Spanish Golden Age Prints 1.0», Transkribus, 2021b.

Cuéllar, Álvaro, «Spanish Golden Age Prints (Spelling Modernization) 1.0», Transkribus, 2021c.

Cuéllar, Álvaro, y Vega García-Luengos, Germán, ETSO: Estilometría aplicada al Teatro del Siglo de Oro, 2017-2023, http://etso.es/.

Cuéllar, Álvaro, y Vega García-Luengos, Germán, TEXORO: Textos del Siglo de Oro. 2022, http://etso.es/texoro.

Cuéllar, Álvaro, y Vega García-Luengos, Germán, «La francesa Laura. El hallazgo de una nueva comedia del Lope de Vega último», Anuario Lope de Vega. Texto, literatura, cultura, XXIX, 2023, pp. 131-198.

Eder, Maciej, «Mind your Corpus: Systematic Errors in Authorship Attribution», Literary and Linguistic Computing, 28.4, 2013, pp. 603-614.

Fradejas Rueda, José Manuel, «De editor analógico a editor digital», Historias Fingidas, Número Especial 1 Humanidades Digitales y estudios literarios hispánicos, 2022, pp. 39-65.

Muehlberger, Guenter, et al., «Transforming Scholarship in the Archives through Handwritten Text Recognition: Transkribus as a Case Study», Journal of Documentation, 75.5, 2019, pp. 954-976.

Simón Palmer, Carmen (coord.), Teatro Español del Siglo de Oro. TESO, Chadwyck-Healey España, Madrid, 1998.

Published

2023-06-04 — Updated on 2024-08-22

Versions

Issue

Section

Métodos para la investigación del patrimonio teatral clásico español: tradición e innovación