måndag 30 maj 2016

OCR på gamla arkivmaterial

I dag deltog jag i ett intressant infotillfälle om READ-projektet som vårt Riksarkiv är med i. Som bekant är det idag rätt krävande att orientera sig i digitaliserade arkiv eftersom sökfunktioner och beskrivande metadata inte är så utvecklade. Det stora problemet är förstås att datamaskiner inte klarar av att tolka handskriven text. Men en lösning är nu i sikte tack vare effektiv maskininlärning.

READ-projektet bygger vidare på det tidigare utvecklade Transkribus-verktyget. Målsättningen i det nya Horion2020-projektet är att lära verktyget bättre tolka också svenska och finska texter och de sker i samarbete med tyskspråkiga institutioner eftersom de gamla handstilarna är liknande.

I princip behöver man lladda ner applikationen, ladda upp bilder, berätta åt programmet hur texten löper, transkribera 50 sidor text som utgångsmaterial för mjukvaran. Efter det borde programmet klara av att läsa in resten åtminstone med någon noggrannhet. Dessutom kan man göra annotering i texten. Nu gäller det att producera tillräckliga mängder material på svenska och finska för att uppnå en god kvalitet.

Målsättningen är att arbeta i nära samarbete med forskare och det finns fina idéer om hur man kunde utnyttja verktyget i samband med digitaliseringen i framtiden. Själv tycker jag detta är ett verkligen fint genombrott vad gäller att integrera arkivmaterial i övriga digitala forskningsinfrastrukturer.

Inga kommentarer:

Skicka en kommentar