Vatikanens arkiv går långt tillbaka i tiden, och sägs omfatta 85 000 hyllmeter. Det är ett enormt dokumentarv, och likt många med liknande samlingar brottas Vatikanen med digitalisering.

Att skanna eller fotografera varje sida är förstås tekniskt sett att digitalisera, men det gör inte materialet sökbart. Det mest önskvärda vore om det gick att använda teckenigenkänning för att tyda skrifterna. Men det är svårt när det gäller gamla handskrivna dokument, där handstilen kan variera kraftigt och varje skrivare har använt egna idiosynkratiska förkortningar och sammanskrivningar. Det är inte lätt för mjukvaran att veta var en bokstav börjar och slutar.

Läs också: 500 år efter Luthers reformation – nu är robotprästen här

Försök har gjorts att lära mjukvaran känna igen hela ordbilder istället för enstaka bokstäver, men utan större framgång.

Donatella Firmani
Donatella Firmani.

Nu ska Donatella Firmani från Roma Tre-universitetet i Italien och hennes team prova ett nytt angreppssätt, rapporterar MIT Technology Review. En uppsättning officiell korrespondens från 1200-talet, 18 000 sidor, ska tydas inte bokstav för bokstav utan pennstreck för pennstreck.

Läs också: Det här är AI och så funkar det

En ai sätter samman pennstrecken till bokstäver och ord, med hänsyn till vad som verkar rimligt med tanke på vad den vet om språk och grammatik.

Ett neuralnät tränades upp med hjälp av ett dataset på 15 000 tecken som först transkriberats av 120 gymnasieelever. ”Vi kunde generera en exakt transkription av 65 procent av orden i vårt dataset”, säger Firmani.

Läs också: Fångar byggde hemlig dator i fängelset – gömde den i taket

65 procent kan låta som en ganska dålig siffra, men det är ett första steg – ett viktigt sådant på vägen mot maskintolkning av antika, handskrivna dokument, som kan komma att få enorm betydelse för historieforskningen.