söndag 8 mars 2015

Digital text och forskning - vad, hur, varför?


Digital humaniora

En allt större del av forskningen i dag använder sig av informationsteknologi på sätt eller annat. Kanske man redan vågar säga att all forskning gör det. Allt flera forskare jobbar med digitala källor, material och metoder. Detta gäller också humanister. Samtidigt har vi en närmast exponentiellt växande mängd digitala material i världen, både digitaliserade och digitalbaserade. Vi lever i en värld i en brytningstid, som vi försöker förstå och greppa.

För humanister är alla slags data och informationsresurser potentiell forskningsdata. Det finns mycket stora mängder information och kunskap att utvinna ur dessa resurser. Detta är man också politiskt mycket medveten om; vi behöver bättre beslutsfattande, bättre förståelse för hur samhället och människorna fungerar. Därför satsar man på digital humaniora och samhällsforskning. Nu gäller det att hänga med, för farten är hisnande.


Den digitala texten som material och källa

Hur kan man då hantera och behandla digital text och hur kan dessa material ge ny kunskap? En ny självklar ansats är att utvinna information med hjälp av olika typer av mjukvara. En dator kan "läsa" och analysera text snabbare och mer effektivt än en människa någonsin kan. Denna s.k. gruvdrift i text (text mining) har t ex inom litteraturvetenskapen kallats "distant reading". Med hjälp av algoritmer kan man få fram statistiska analyser av textmassor, man kan analysera och gruppera texter enligt typer, skapa olika typer av klusters på basis av olika typer av likheter. Man kan få fram strukturer, likheter, skillnader, tendenser och anomalier som man kan analysera och förklara. Genom att med hjälp av datorer "zooma ut" från texter kan man vinna nya insikter. Att göra den senare delen av forskningsprocessen, att tolka och förklara, behövs mycket traditionell akademisk humanistisk kunskap. För att göra den förra delen krävs av humanister å sin sida ett öppet sinne och en förmåga att samarbeta med och lära sig av människor från andra discipliner. Möjligheterna till ny kunskap är fantastiska.

Den digitala texten är ofta ganska svagt strukturerad. Alldeles för svagt för att kunna användas riktigt effektivt i synnerhet av dem som är mer intresserade av innehållet och betydelserna i texten på en mer detaljerad nivå och kanske vill söka i den för att göra också närläsning. Därför vill forskare ofta förbättra texten och öka informationen i den. Språkvetare vill till exempel lägga till information om ordklasser eller information som ordets grundform eller något annat som förbättra möjligheterna att söka och analysera texterna. Detta görs i dag i form av annotering, vilket innebär att man helt enkelt lägger till information in i texten. Det kan numera göras automatiskt av system med artificiell intelligens, men vad jag förstått går man ofta igenom allt också manuellt för att den ska vara korrekt och följa de kvalitetskrav vi har vant oss vid, då forskare tolkat och analyserat text och språk. Detta tillvägagångssätt följer i huvudsak en "platt" logik (av Schloen&Schloen kallad "dokumentbaserad" i en läsvärd artikel för den som vill veta mera), som av tekniska skäl gör det svårt eller omöjligt att inkludera flera parallella eller alternativa läsningar, i synnerhet om de inbegriper överlappande hierarkier.

Litteraturvetare, historiker och andra humanister och samhällsvetare vill ofta fokusera ännu mera på tolkning och betydelser i texterna. Problemet är ju att dessa är mycket kontextberoende och komplexa saker, inte sällan vaga och undflyende dimensioner av vår tillvaro som kan vara svåra eller omöjliga att fånga i ett format som kan förvandlas till data. Då behöver man nödvändigt också bryta det traditionella formatet med "löpande text" och "fotnoter och kommentarer", som vi vant oss vid under den hittills kända historiska tiden. Vi måste tänka i flerdimensionella struktuer och mycket mer komplexa relationer än enkla hierarkier eller löpande textsträngar.

Vid SLS har man i snart tio år arbetat med dessa frågor i det stora Topelius-projektet. Där har man lagt ner resurser på att ta fram tekniker som kombinerar annotering och databaser så att man kan söka i materialen på ett sätt som beaktar betydelser och innehåll. Man har använt sig av allmänna standarder där de funnits till hands och gjort ett minutiöst vetenskapligt utgivningsarbete, som kommer att vara av bestående betydelse. Samtidigt som det är ett utgivningsprojekt, är det ett forskningsprojekt, där man verkligen bemödar sig om att förse Topelius text med all tänkbar kontextuell information och ge framtida forskare bästa möjliga redskap att arbeta med materialet. Det säger sig självt att arbetet är mycket kostsamt och krävande. Och framför allt är det manuellt och arbetsintensivt. Det kräver mycket, mycket tid och sakkunskap att ta fram dylika sofistikerade digitala resurser. Vad som är fint är att man använt kompetensen och tekniken också på Edelfeltmaterial.

Fortfarande tampas man vad jag kan förstå också i viss mån med de begränsningar som den "dokumentbaserade" logiken medför (i praktiken TEI-kodens struktur) och på grund av den förhållandevis enkla struktur de länkade databaserna har (t ex ofta fattig inkodning av relationer). En annan aspekt är att även om man kan med nyare tekniker kan lösa dessa problem (se i Chicago och redan för flera år sedan vid Nationalbiblioteket  hur man med hjälp av en extremt noggrann annotering i kombination med användning av ontologier  försöker tackla problemen), är de fortfarande fruktansvärt arbetsdryga och kostsamma projekt som kräver mycket manuellt arbete och sakkunskap. Vi talar faktiskt inte, enligt min mening om någon "stor data", som också till sin definition anses vara av en helt annan karaktär, mycket "rörig och ojämn" data.

All den övriga enorma massan av data som vi inte kan behandla med dylika "silkesvantar" är ändå enligt den nya trenden minst lika intressant och värdefull för vår förståelse av vårt samhälle och vår kultur. Vi kan omöjligt bygga komplicerade system som kräver mängder av manuellt arbete för att kunna analysera alla dessa resurser. Gruvdrift ger oss endast nya frågor att besvara, fenomen att förklara och förstå.

Automatiskt berikande av text

Vi är alltså hänvisade till datorernas hjälp för att berika, organisera och tolka dessa material. Men vägen dit är lång. Ju mer data vi har, desto svårare blir det för oss att orientera oss och hitta det som är relevant. Kan vi någonsin få svar på våra frågor av en dator, som på riktigt kan "förstå" och tolka både våra frågor och materialen?

Vid Google har man arbetat med dessa frågor i mer än femton år, under de senaste decenniet dessutom med nästan astronomiska resurser. Man får idag hyfsade resultat vad gäller relevans och precision i sökningarna. Vad jag kan förstå arbetar men allt mera med teknologier som hör till eller är är nära besläktade med den semantiska webben (som t ex arbetet i Chicago jag nämnde ovan). Hur mycket manuellt arbete som är gjort vet jag inte, men jag tänker mig att man också i praktiken lagt ut en del av arbetet på sina kunder genom t ex Google+ och Freebase. Sannolikt har också öppna resurser som Wikipedias data varit av stort värde. (Jag tror förresten att få saker är så underutnyttjade i den akademiska världen som Wikipedias välstrukturerade data.) Men även om Google är bäst på att analysera och söka: vilken forskare "litar" på Google som något annat än ett nog så viktigt hjälpmedel? Vi vet ju inte ens hur sökningarna på riktigt fungerar? Den kunskapen ger bolaget heller knappast bort, ens för behjärtansvärda akademiska ändamål.

En annan viktig aktör i sammanhanget är IBM, som varit ledande och riktgivande flera gånger under de senaste decennierna i dessa frågor. Utvecklingen av artificiell intelligens och kommunikation mellan människor och datorer har väl kulminerat i Watson. Mycket spännande och intressant är också datorjuristen ROSS som är byggd på Watson. ROSS kan tolka fritt formulerade frågor (vilket också Google blir allt bättre på) och ge svar. Viktigt att beakta, om vi bedömer att ROSS utgör "state of the art" vad gäller maskinell tolkning, analys och kommunikation, är ändå att den bas av juridiska material systemet (jag höll på att skriva "han" ...) arbetar med är enhetligt, väl strukturerat och, vad ännu viktigare är, begreppsmässigt ovanligt entydigt.

Min bedömning är därför att det kommer att ta sin lilla tid innan vi kan få maskinellt gjorda semantiska analyser av några mer heterogena material som är riktigt bra. Om någonsin. Att kunna lita på att en sökning kan skilja på homonymer, eller ens använda synonymer eller simpla hierarkier, är långt ifrån självklart. Detta är mycket viktigt att forskare förstår.

Ännu några ord om metadata

Det finns ju en traditionell och effektiv metod att förbättra sökbarhet och klassificera innehåll som använts redan länge av professionella (bibliotekarier) och som också spontant blivit en del av webben i takt med att informationsmängderna exploderat och behovet av fungerande sökningar blivit allt mera akut. Det är det manuella taggandet av innehåll med hjälp av ämnesord eller andra typer av beskrivande mer eller mindre strukturerad information. Denna typ av information kallas som bekant metadata och är en förutsättning för all slags hållbar informationsförvaltning. Det är därför en del av kärnverksamheten och kärnkompetensen vid arkiv, museer och bibliotek. Att organisera och beskriva material så att man kan hitta det och använda det när det behövs. Sannolikt lönar det sig att använda tekniska hjälpmedel, men manuell kontroll förbättrar kvaliteten avsevärt tills vidare.

Dessa olika typer av kataloger och metadatasystem har ofta en historisk kontext som går långt tillbaka, vilket ger dem ännu ytterligare ett mervärde. Denna information kan dessutom också användas vid forskning som sådan. Den kan ge mycket kunskap om vår kultur. Det pågår också intressant forskning på området också i Helsingfors.

Det finns digitalhumanister som forskar i kod och påpekar det viktiga med att försöka förstå hur koden påverkar vår kultur och till exempel vetenskapen och forskningen. Att se datorkod som en kulturell resurs och som språk som spränger igenom och formar allt större delar av det vi gör i dag och hur vi tänker på saker är inte en dum idé, tycker jag. Koden är också kulturarv och en resurs. Det samma kunde man säga om olika kataloger och register som gäller vår värld och information om den, och information om informationen. Att producera och berika sådan information är en klok investering, som dessutom kan innebära praktisk nytta i vardagen för många människor.














Inga kommentarer:

Skicka en kommentar