Visningen av transkripsjon og skannet side i Transkribus fra READ-COOP.

Transkripsjonsretningslinjer for håndskriftsgjenkjenning

Generelle retningslinjer for transkripsjon av tekst tilpasset arbeid med håndskriftsgjenkjenning (HTR).

Håndskriftsgjenkjenning, eller handwritten text recognition (HTR), er evnen en datamaskin har til å lese håndskrift og gjøre den om til maskinlesbar tekst – som den teksten du leser nå. Maskinen må trenes på håndskrift for å bli god på å lese ulike typer dokumenter, og for å få til dette trenger vi såkalte treningsdata for å lage det vi kaller modeller. Treningsdataene består av kildetro transkripsjoner laget av mennesker, for eksempel brukere av Digitalarkivet. Disse dataene fungerer som en fasit for maskinen som skal lære å lese håndskrift. Modellen er maskinens forståelse av håndskriften, basert på disse manuelle transkripsjonene. Du kan lese mer om håndskriftsgjenkjenning på bloggen vår.

Disse retningslinjene skal du kunne følge uansett om du lager transkripsjoner i vanlige tekstbehandlingsverktøy som Microsoft Word, Pages og Google Docs, eller verktøy som er spesialisert for håndskriftsgjenkjenning, som Transkribus. Retningslinjene er best egnet for løpende tekst, men de fleste prinsippene lar seg overføre til tabeller.

Det er viktig å følge konsekvente retningslinjer når vi lager transkripsjoner som skal kunne brukes til håndskriftsgjenkjenning. De samme transkripsjonene brukes gjerne til søk og/eller visning, i tillegg til treningsdata for modeller, og retningslinjene må ta hensyn til dette.

Noen av retningslinjene innebærer bruk av spesifikke tegn til annotering – som i "%%eksempel%%" og "@@" – i de tilfellene hvor programmet du bruker ikke støtter noen annen form for annotering. Disse annotasjonene er laget slik at de ikke kan forveksles med faktisk tekst, og kan omgjøres maskinelt på et tidspunkt etter transkriberingen, slik at de ikke skaper støy i treningsdataene eller i bruken av transkripsjonene. Hvis vi er inkonsekvente i måten vi transkriberer på, vil det dermed kunne skape problemer i ettertid. Det er også derfor vi ikke kan bruke retningslinjene for avskrift og registrering som har vært brukt for blant annet kirkebøker og folketellinger, siden de ikke tar hensynene vi er avhengige av.

Nedenfor tar vi for oss de viktigste transkripsjonsretningslinjene. Jo flere av retningslinjene som følges, jo bedre blir treningsdataene. Det er likevel umulig å dekke alle eventualiteter vi kan møte på i transkriberingen her, så det sentrale er å finne en god løsning og være konsekvent med å bruke den. Spørsmål om retningslinjene kan sendes på e-post.

Kildetro transkripsjoner

Transkripsjonene skal være kildetro: Hvert tegn skal transkriberes slik det fremkommer av originalen. Dette er hovedprinsippet som alle andre transkripsjonsretningslinjer springer ut av. Dette skyldes først og fremst at håndskriftsgjenkjenningsmodeller lærer seg å transkribere maskinelt ved å se sammenhengen mellom den håndskrevne teksten og transkripsjonen vår av den. Jo likere vår transkripsjon er originalen, jo bedre treningsdata er den for modellene. Kildetro transkripsjoner og avskrifter har også frem til nå vært normen ved Arkivverket av andre faglige grunner.

Vi forholder oss med andre ord til teksten slik den er i originalen. Det betyr at vi i transkripsjonen vår transkriberer alle store og små bokstaver, alle tall og alle andre tegn, som aksenter, punktum, komma og så videre, slik de fremkommer av originalen. Vi skriver for eksempel ikke ut forkortelser, forkorter ikke ord og fraser som er skrevet ut, standardiserer ikke datoer og navn, omgjør ikke tall til bokstaver eller bokstaver til tall, retter ikke feil og moderniserer ikke eldre stavemåter.

Likevel transkriberer vi med en viss velvilje hvis håndskriften er noe inkonsekvent, altså en håndskrift hvor noen ulike bokstaver kan se like ut. Hvis for eksempel skribentens o-er ofte ser ut som a-er, skal vi til tross for dette transkribere dem som "o", hvis det fremkommer av ordet at bokstaven skal være "o".

Vi transkriberer ikke innrykk eller fonter.

Legg merke til at vi behandler noen tegn på spesielle måter, særlig hvis originalteksten er av eldre dato. Les mer om dette under punktet "Spesielle tegn".

Ny linje

Vi lager en ny linje i transkripsjonen der det er en ny linje i originalen. En ny linje lager du med enter-tasten. Dette er et av de viktigste prinsippene når vi lager transkripsjoner til håndskriftsgjenkjenning, siden feil antall linjer og nye linjer på feil sted bryter samsvaret mellom transkripsjon og original. Det vil si at antall linjer i transkripsjonen vår må tilsvare antall linjer i originalteksten, og linjene må lages der de er i originalen. Du kan lese mer om hva vi behandler som en linje under punktet "Innskutte linjer, tekst i margen og leserekkefølge".

Merk at hvis vi bruker et program som Word for å transkribere, vil teksten automatisk fortsette på neste linje når vi kommer til høyre marg. Dette teller ikke som en ny linje, og er kun noe Word gjør automatisk for syns skyld, avhengig av størrelsen på skriften og margen. Den eneste måten å lage en ny linje på i transkripsjonen vår, er å trykke på enter-tasten.

Vi følger altså originalens linjeskift i transkripsjonen, men merk at vi ikke transkriberer innrykk.

Sidereferanse

En tekst er ikke bare delt opp i linjer, men også i sider. Hvis vi for eksempel bruker Transkribus, deles transkripsjonen automatisk opp etter antall skannede bilder. Hvis vi derimot bruker programmer som Word, er ikke dette mulig. Hvor mye plass teksten tar opp i Word, avhenger av skriftstørrelse og andre faktorer som ikke hjelper oss med å skille originalsidene fra hverandre.

I programmer som Word er vi derfor nødt til å lage en referanse som peker på sidetallet i originalen. Vi markerer starten på en ny side i originalen med sidetallet etterfulgt av tegnet ">" – uten mellomrom – på en egen linje.

Legg merke til at sidetallet vi skal forholde oss til ikke nødvendigvis er det samme som pagineringen eller folieringen i originalen, altså tallene som står øverst eller nederst på sidene. Vi regner den første siden som er skannet som side 1 og teller oppover derfra, uavhengig av nummereringen i originalen. Det er dermed rekkefølgen originalsidene er skannet i som teller.

Bøker kan være skannet én side av gangen eller to sider av gangen. Uansett regner vi én side som én side transkripsjon, og en skannet dobbeltside er med andre ord to sider transkripsjon. Det er dermed ikke alltid sånn at antallet bilder tilsvarer antallet sidereferanser. For en bok som kun er skannet som dobbeltsider, vil hvert bilde ha to tilhørende sidereferanser.

På bildet ovenfor ser vi den 151. siden i originalen, medregnet forsiden. Vi transkriberte den slik:


151>
handlede Anledning førte Vidner, nemlig 13de til 22de
Vidne. – Disse Provgav nemlig i det væsentlige eid


Vi skal ikke behandle tomme sider på noen spesiell måte. Hvis side 150 var tom, ville vi transkribert det slik:


150>
151>
handlede Anledning førte Vidner, nemlig 13de til 22de
Vidne. – Disse Provgav nemlig i det væsentlige eid


Bindestrek på slutten av linjer

Det er viktig at vi skiller mellom bindestreker på slutten av en linje og bindestreker ellers i teksten. Bindestreker på slutten av en linje transkriberer vi med dobbel bindestrek, "--", eventuelt "¬" i Transkribus. Alle andre bindestreker transkriberes på vanlig måte med "-".

Disse to bindestrekene betyr ikke det samme, og vi er derfor nødt til å kunne skille mellom dem i transkripsjonen vår for å kunne behandle dem ulikt senere. Et ord som "grøtsteen" kan for eksempel deles opp med bindestrek mellom to linjer, som på bildet nedenfor.

Bindestreken som skiller "grøt" og "steen" er ikke en reell bindestrek, siden "grøtsteen" ikke skal ha bindestrek. Derfor skal heller ikke ordet transkriberes slik. I stedet bruker vi "--" eller "¬":


Huuser, stue med Jern ovn, Kammer med grøt--
steen ovn, Kiøkken med Skorsteen Muur,


Nå kan vi i ettertid skille mellom og dermed behandle "--" og "-" ulikt. Dette er nyttig hvis transkripsjonene våre skal kunne brukes til søk, siden vi da kan ignorere alle tilfeller av "--" eller "¬" i søket og dermed få treff på "grøtsteen", selv om ordet er transkribert med "--" eller "¬".

Unntaket til denne bruken av bindestrek på slutten av en linje, er ord som faktisk skal ha bindestrek uansett hvor på linjen de opptrer. Dette gjelder ord som "Helse-Norge". Hvis slike ord deles mellom to linjer, skal vi transkribere dem med vanlig bindestrek "-", slik:


og er fordelt over ulike institusjoner i Helse-
Norge og ulike kommuner, og vi


Innskutte linjer, tekst i margen og leserekkefølge

Leserekkefølgen, altså rekkefølgen en person ville lest teksten i, skal være lik mellom originalen og transkripsjonen vår. Unntaket er til dels innskutte linjer.

Leserekkefølgen er stort sett intuitiv for løpende tekst, men kan skape forvirring når skribenten har skutt inn ett eller flere ord mellom to linjer. Kort forklart skal slike innskudd behandles som vanlige linjer, og må dermed plasseres i transkripsjonen der de er i originalen.

Innskutte linjer er gjerne rettelser eller tillegg til noe som allerede er skrevet. Vi skal imidlertid representere de innskutte linjene slik de fremkommer av originalen, i tråd med prinsippet om å være kildetro, uten å plassere teksten i den innskutte linjen der den "egentlig" skulle vært.

I eksempelet nedenfor skal den innskutte linjen plasseres i transkripsjonen mellom linjen som er over og under i originalen.

Vi valgte å transkribere det slik:


5 Smaae Karmer med Vinduer i blye ind--
tækt med torv, og een liden boed i gaarden
fattet, tækt med bord, af Ejeren opgivet for


Det samme prinsippet om leserekkefølge gjelder transkribering av kommentarer og annen tekst i margen. Denne teksten skal transkriberes som egne linjer, og plasseres i transkripsjonen der det ville vært naturlig å lese dem i forhold til resten av teksten.

I eksempelet nedenfor er tallet "50" i høyremargen en sum, og tallet "87" i venstremargen et saksnummer. I praksis markerer "50" slutten på det foregående avsnittet og "87" starten på neste.

Vi valgte å transkribere dette som fire linjer i transkripsjonen:


bord, Taxeret af os for
50:
87
Ranni Michelsdr Strandbye Sy--


I eksempelet nedenfor refererer "Kj.gt 42" i venstremargen til en adresse, og hører sammen med sak 19. Margteksten står over to linjer, så det må den også gjøre i transkripsjonen vår.

Vi valgte å transkribere dette slik, med saksnummeret etterfulgt av margteksten:


19:
Kj.gt
42
Hr: Cancellie-Raad Erich Must Han--


Merk at hvis margteksten hadde vært i høyre marg i stedet for venstre, hadde vi i akkurat dette tilfellet plassert teksten på samme sted i transkripsjonen. Transkribering og plassering av tekst i margen avhenger av kontekst, og avgjørelsen må tas på bakgrunn av leserekkefølge og tekstens fysiske plassering i originalen.

Hvis noe av teksten i originalen står på skrå, er loddrett eller i det hele tatt ikke er vannrett, skal vi transkribere på vanlig måte, uten å markere at transkripsjonen var rotert i originalen.

Uklar skrift

Hvis vi har problemer med å forstå hva som er skrevet, skal vi ikke gjette, men markere det aktuelle tegnet eller den aktuelle sekvensen av tegn som uklar. Dette gjør vi ved å annotere de ordene eller tegnene det gjelder.

Noen transkripsjonsprogrammer støtter annotering av uklar tekst. I for eksempel Transkribus kan du markere og annotere de aktuelle tegnene eller ordene som "unclear". Hvis programmet du bruker ikke støtter dette – det er tilfelle om du bruker Word eller lignende program – skal du annotere ved å skrive to alfakrøller. Da transkriberer du den aktuelle delen av teksten som "@@", for eksempel:


Anette @@ Teige

Ri@@ardt

Li@@e Va@@n@@s


Legg merke til at vi ikke legger inn mellomrom før eller etter alfakrøllene når det ikke er mellomrom der i originalen.

Hvis det er flere ord eller tegn på rad som du ikke klarer å tyde, bruker du kun én annotasjon, altså to alfakrøller, for alle. Merk at det kun gjelder om de er på rad, ikke om de er avbrutt av andre tegn eller ord som du faktisk klarer å tyde, som vist i eksemplene over.

Uleselig skrift

Hvis en del av skriften i originalen er helt uleselig, for eksempel på grunn av et hull eller en blekkflekk, skal vi ikke gjette hva som kan ha stått der opprinnelig, selv om vi kan forstå hvilket ord eller hvilke tegn det er.

Noen transkripsjonsprogrammer støtter annotering av uleselig tekst. I for eksempel Transkribus kan du plassere markøren på det aktuelle punktet i teksten og legge til taggen "gap". Hvis programmet du bruker ikke støtter dette – det er tilfelle om du bruker Word eller lignende program – skal du annotere ved å skrive to ampersander. Da transkriberer du den aktuelle delen av teksten som "&&", for eksempel:


2. desember && Christiania

Gre&&he Hansen

Ha&&mer, Gj&&. &&


Legg merke til at vi ikke legger inn mellomrom før eller etter ampersandene når det ikke er mellomrom der i originalen.

Hvis det er flere uleselige ord eller tegn på rad, bruker du kun én annotasjon, altså to ampersander, for alle. Merk at det kun gjelder om de er på rad, ikke om de er avbrutt av andre tegn eller ord som faktisk er leselige, som vist i eksemplene over.

Overstrøket tekst

Hvis teksten er overstrøket i originalen, skal den også overstrykes i transkripsjonen.

Denne typen tekstformatering støttes av de fleste tekstbehandlingsprogrammer, som Transkribus og Word. Hvis den ikke støttes, skal vi annotere ved å omkranse den overstrøkne teksten i originalen med doble prosenttegn. Da transkriberer vi som i eksemplene til høyre:


Alf Han Jonsen      Alf %%Han%% Jonsen

Gunhild Aaasse      Gunhild Aa%%as%%se


Legg merke til at vi ikke legger inn mellomrom før eller etter annotasjonene når det ikke er mellomrom der i originalen.

Kursiv, fet skrift og understreking

Kursiv, fet skrift og understreking er mindre vanlig i håndskrift enn i trykt skrift og maskinskrift (skrivemaskin), men skal formateres i transkripsjonen vår på samme måte som i originalen. Unntaket er skriftformen kursivskrift fra middelalderen og kursivering av egennavn i gotisk håndskrift, som vi regner som håndskriftstiler og derfor transkriberer uten kursiv.

Denne typen tekstformatering støttes av de fleste tekstbehandlingsprogrammer, som Transkribus og Word. Hvis transkripsjonsprogrammet du bruker ikke støtter formatering av kursiv, fet skrift og understreking, skal du annotere ved å omkranse den aktuelle teksten med doble henholdsvis pundtegn, eurotegn og nummertegn. Da transkriberer vi som i eksemplene til høyre:


Jorunn Steigen, syerske og pleier      Jorunn Steigen, ££syerske og pleier££

1500 kr. netto               1500 kr. €€netto€€

utenfor de rammene             utenfor ##de## rammene


Legg merke til at vi ikke legger inn mellomrom før eller etter annotasjonene når det ikke er mellomrom der i originalen.

Spesielle tegn

Vi forholder oss til regelen om kildetro transkripsjoner også når det gjelder spesielle tegn, så langt det lar seg gjøre praktisk.

Alle aksenter, apostrofer, tødler, komma, punktum og så videre skal transkriberes slik de fremkommer av originalen. Det finnes imidlertid to generelle unntak. Unntak én er bruk av diakritiske tegn som en del av håndskriftsstilen. To eksempler er bokstaven"y", som i gotisk håndskrift gjerne ble skrevet med tødler, "ÿ", og det å skrive "ø" som "ó". Dette regner vi altså kun som en håndskriftsstil, og vi transkriberer bokstavene som "y" og "ø". Unntak to er bindestreker som skrives med "=". Disse har vi valgt å transkribere som "-" og "--"/"¬", avhengig av kontekst – les mer om dette under "Bindestrek på slutten av linjer".

I noen tekster kan vi støte på tegn vi ikke finner på vanlige tastatur, som tegnet for en halv, "½", og gjentagelsestegnet "〃". Det er viktig at vi er konsekvente med hvordan vi transkriberer slike tegn, og de må aldri erstattes med forklarende tekst, som for eksempel "en halv" i stedet for "½" og "ditto" i stedet for "〃". Tegnene vi bruker, må også være en del av Unicode-standarden.

Det er også viktig at vi bruker samme Unicode-tegn for å transkribere ulike representasjoner i originalen av det samme tegnet. For eksempel skal gjentagelsestegnet alltid transkriberes med "〃", uansett om det i originalen ser ut som "〃" eller "—"—".

I eldre tekster kan noen tegn se ut som moderne tegn, men likevel bety noe annet. Som i alle andre tilfeller er det viktigste at vi da er konsekvente i transkriberingen, og at vi ikke velger retningslinjer som skaper trøbbel senere. I middelaldertekster kan vi for eksempel støte på ampersander – "&" – som ser ut som tallet sju "7". Et eksempel er ampersanden ca. midt på bildet nedenfor, fra et diplom på latin fra 1189.

Til tross for likheten til "7" ville det vært et feilsteg å transkribere det som noe annet enn "&". Tegnet betyr tross alt ikke "7", og derfor gir det ingen mening å transkribere det som "7", uansett hvordan ampersand tidvis ble skrevet i middelalderen. I henhold til prinsippet om kildetro transkripsjoner, skal ampersand heller aldri transkriberes som "og", "et" eller lignende.

Merknader av transkribenten

Transkribenten skal aldri skrive sine merknader eller kommentarer direkte inn i transkripsjonen – heller ikke med fotnoter. Hvis ikke vil kommentarene og fotnotene forstås som transkripsjoner og forstyrre treningen av modellen. Eventuelle kommentarer og andre merknader må systematiseres på en annen måte. Noen transkripsjonsprogrammer, og programmer som Word, har kommentarfunksjon, og disse kan trygt brukes, siden de ikke er en del av selve transkripsjonen.