Aan het einde van de week

Ook week elf eindigt, dé gelegenheid voor enkele berichten:

  • werkgroepkastenAfgelopen donderdag is tijdens de docentenvergadering van Kunstgeschiedenis iets verteld over het omwerken van de GWUB-collecties naar de Library of Congress Classification. De aanwinsten en het oude bezit dat wordt omgewerkt, komen samen met de kunstboeken uit andere collecties in E 2.01 en E 1.01. In E 2.01 hebben de werkgroepkasten deze week al een permanente plek gekregen.
  • Aan Delpher, het vlaggenschip van de KB dat een belangrijke rol speelt in het streven van de Koninklijke naar digitale beschikbaarheid, zijn vijf regionale krantenbanken toegevoegd. Het betreft kranten van het Archief Eemland, Krantenbank Zeeland, Noord-Hollands Archief, Regionaal Archief Alkmaar en Waterlands Archief. De kranten die aan Delpher zijn toegevoegd stammen uit de negentiende en twintigste eeuw.
  • In Vox-Pop, op het Binnengasthuisterrein, is een tentoonstelling ingericht waar de twee scenario’s voor de locatie van de UB Binnenstad worden gepresenteerd. De academische gemeenschap van de UvA kan tot vrijdag 14 april haar voorkeur uitspreken op een online platform. Zie verder: Universiteitsbibliotheek op de Binnenstadscampus.

Verslag: Historische kranten als ‘Big Data’ II

De Koninklijke Bibliotheek (KB) organiseerde op 20 januari het symposium Historische kranten als ‘Big Data’ II. De bijeenkomst richtte zich met name op Delpher, het vlaggenschip van de KB dat een belangrijke rol speelt in het streven van de koninklijke naar digitale beschikbaarheid. Gezien de volle aula bleek het onderwerp te leven. Ook het programma was goed gevuld: naast de inleidende presentaties bestond het uit keynotes, ‘wetenschappelijke resultaten’, de bespreking van verschillende tools en flitspresentaties.

Hein van den Berg (UvA), de eerste keynote-spreker, behandelde begrippen waarvan de betekenis in de loop der jaren verschuift. Om dat in kaart te brengen schetste hij een interpretatiekader dat deze verschuiving geautomatiseerd registreert, door de spreker het Axiomatisch Wetenschappelijk Schema genoemd. Even wat techniek: de betekenis van een begrip wordt in het schema vastgelegd met relevante omgevingswoorden gegroepeerd in deelconcepten. Verschuift een deelconcept dan verandert de betekenis van het begrip.

Van den Berg noemde een aantal kanttekeningen bij het hanteren van het schema. Ten eerste moet het tekstcorpus ‘dense’ zijn. Om kort te zijn: het veranderen van de betekenis van filosofische begrippen kan het best in filosofische tekstcorpora worden onderzocht. Resultaten van het onderzoek zullen vergezeld moeten gaan van contextualisering en de onderzoeker dient eventuele vooraannames bij het opstellen van het schema expliciet te maken.

Hij wees er op dat de huidige computertechnieken nog niet voldoende geavanceerd zijn om te werken met het Axiomatisch Wetenschappelijk Schema. Maar niet getreurd. In de loop van de dag bleek dat binnen verschillende disciplines al wel tools zijn ontwikkeld om (verschuivende) concepten te traceren. Bijv. voor onderzoek naar de ontwikkeling van begrippen in krantenteksten, naar de opkomst van nieuwe woorden en het voortbestaan van oudere, naar het geautomatiseerd classificeren van krantenteksten en voor de semantische analyse van teksten. Een aardig aspect was dat sommige tools ook een visualisatie- en zelfs een 3-D component in zich droegen.

Naast de tools vormden de initiatieven om de kwaliteit van de OCR te verbeteren een tweede poot van het symposium. Daar schijnt het, zeker bij oudere krantenteksten, wel eens mis te gaan en iedereen beseft dat een verkeerd ingelezen woord moeilijk vindbaar is. Een derde aspect was de wens om meerdere tekstcorpora (in Nederlab) of andersoortig materiaal (KB LAB) voor onderzoekers beschikbaar te stellen. Wat dat betreft was het welkom nieuws dat de KB de teksten en de metadata van kranten van vóór 1877 gratis toegankelijk maakt.

Meerdere malen kwam ter sprake dat er behoefte is aan de beschikbaarheid van beeldmateriaal, zoals de foto’s en illustraties uit kranten, en aan grote en evenwichtige corpora naast Delpher. Ook de wens om computationeel onderzoek te contextualiseren kwam herhaaldelijk aan bod. En tenslotte wierp de KB zich op om belangrijke tools te archiveren en beschikbaar te stellen als een onderzoeksgroep deze niet langer in de lucht kan houden.

Het symposium was lang, het werd weliswaar door de verschillende presentatoren met humor en snelheid gepresenteerd maar dit kon niet verhullen dat de inkadering in een relevant onderzoeksproject meestal ontbrak. Eén belangrijke aspect, want voor welk onderzoek worden deze tools nou eigenlijk ontwikkeld? Ewoud Sanders was wat dit betreft een lichtend voorbeeld. Hij zoekt in Delpher, hij digitaliseert teksten, hij gebruikt bestaande tools. Maar hij maakte vooral duidelijk waarvoor hij zoekt, digitaliseert en die tools gebruikt. Een context die de organisatie, wellicht met een wat minder vol programma, aan alle sprekers had mogen vragen.

Er speelt veel op het gebied van de Digital Humanities maar volgens Jaap Kamps (UvA) moet de echte omwenteling nog komen want in zijn ogen ondersteunen de nieuwe tools in de regel traditioneel onderzoek. Her en der spelen instellingen al wel in op de ontwikkelingen door het aantrekken van gespecialiseerde medewerkers, zoals onlangs bij het NIOD dat een informatiespecialist digital humanities zocht. Een wetenschappelijke bibliotheek kan in deze ontwikkeling een rol spelen door na te gaan wie van de academische staf al met Digital Humanities werkt, wat hun behoeften zijn en hoe wetenschappers zonder ervaring op dit terrein verder geholpen kunnen worden.

Voor nog een verslag, zie: Historisch onderzoek in digitale kranten: verslag van het big data-congres.