A1 Journal article – refereed
Tekstien uudelleenkäyttö suomalaisessa sanoma- ja aikakauslehdistössä 1771–1920. Digitaalisten ihmistieteiden näkökulma




List of Authors: Rantala Heli, Salmi Hannu, Nivala Asko, Paju Petri, Sippola Reetta, Vesanto Aleksi, Ginter Filip
Publisher: Suomen Historiallinen Seura ja Historian Ystäväin Liitto
Publication year: 2019
Journal: Historiallinen Aikakauskirja
Volume number: 117
Issue number: 1

Abstract

Artikkelissa tutkitaan suomalaista sanoma- ja aikakauslehdistöä tekstin uudelleenkäytön näkökulmasta.Saman tekstin julkaiseminen uudelleen eri yhteyksissä on sinänsä vanha ja tunnettu ilmiö, mutta ennen sanoma- ja aikakauslehtien digitoimista tätä lehdistön piirrettä ei ole voitu tutkia systemaattisesti. Tutkimuksen lähdeaineistona on Suomen Kansalliskirjaston julkaisema sanoma- ja aikakauslehtien digitoitu OCR-korpus, josta on COMHIS-hankkeessa kehitetyn, tekstin uudelleenkäytön tunnistavan BLAST-menetelmän avulla etsitty lehdistössä esiintyvää kopiointia ja toisteisuutta. Aikavälillä 1771–1920 toistoa sisältäviä tekstejä tai tekstikatkelmia on löytynyt noin 13,8 miljoonan klusterin eli pidemmän merkkijonon verran. Artikkelissa esitellään sekä itse uudelleenkäytön tunnistukseen käytettyä BLAST-menetelmää että tämän tunnistuksen tuloksia. Tutkimus osoittaa, että tekstien kopioiminen ja uudelleenkäyttö on merkittävä osa suomalaista lehdistöä. Menetelmänä tekstien uudelleenkäytön tunnistus tarjoaa uuden keinon tutkia informaation liikkeitä ja reittejä.

This article explores Finnish newspapers and periodicals produced between 1771 and 1920, with a focus on the reuse of texts. While the reprinting of particular texts in a range of different locations can be regarded as an old and well-acknowledged practice in the press, a systematic examination was not possible until the digitization of these historical documents. This primary research material derives from the digitized OCR corpus of newspapers and periodicals published by the National Library of Finland. In the COMHIS project, we have developed a text-mining software, based on NCBI BLAST, which effectively recognizes and enables the location of textual repetitions. We have found approximately 13.8 million clusters of text reuse. As well as an introduction to the methods and uses of BLAST, the article will also explore the results gained through these and what they reveal about the nature of the circulation of information in the Finnish press during this period. This article shows that the copying and reuse of texts was a remarkable part of the process.


Last updated on 2019-21-08 at 20:55