torsdag 16 november 2017

LibrisXL är en stor nyhet




Har ni stiftat bekantskap med Boksampo någon gång? Det är en tjänst där man kan hitta väldigt mycket intressant information om litteratur och författare. Man kan göra egna boklistor som man kan publicera och dela om man vill. Tjänsten bygger på länkad data. För att komma till bibliotekskatalogerna måste man länka vidare. All information som inte kan presenteras i det traditionella biblioteksformatet måste sparas och publiceras någon annanstans. De system biblioteken använder i dag är mycket gammalmodiga och de bildar väldisciplinerade silon som diskuterar bara med varandra.


I Finland saknade vi länge en samkatalog, men nu finns lyckligtvis Melinda, där biblioteken kan ladda ner och upp katalogposter. Tidigare satt man på riktigt inom varje bibliotekssamarbete i kommunerna och katalogiserade samma bok helt och hållet från början. Ju längre tid man tar på sig desto bättre blir det gjort. Helst borde man ju läsa hela boken. Alternativet var att köpa färdiga poster utifrån. Då kunde i stället företag tjäna pengar på att göra arbetet en gång och sedan sälja samma katalogpost gång på gång på gång till olika bibliotekssystem. Den finska Melinda samkatalogen gör arbetet mycket effektivare, men den är fortfarande i grunden ett traditionellt system, som inte lätt avslöjar sina skatter för omvärlden.


I Sverige har man däremot valt en radikalt annan väg. Där har Libris redan länge fungerat om samkatalog och nu har man tagit det modiga steget ut till länkade data. Medan vi i Finland kämpar med att ens lyckas integrera våra strålande maskinläsbara ämnesord i katalogerna, har man i Sverige  bestämt sig för att det inte är ändamålsenligt att hälla fast vid en föråldrad teknologi utan hoppar direkt femtio år framåt i tiden, till en tid där världen är full av digital information. Det är en väg som i princip är utstakad av bl a Library of Congress men jag undrar om inte Kungliga Biblioteket är det första nationalbiblioteket som tar detta steg fullt ut.

Eftersom de andra systemen som det nya LibrisXL talar med fortfarande surrar på med sina gamla format måste man tills vidare konvertera informationen på väg in och ut i samkatalogen. Men den nya katalogen kan smidigt dela med sig av all information med vem som helst. Dess innehåll kan vid behov växa och kompletteras, det kan utan problem tala med också andra resurser än bibliotekskataloger. Till exempel Wikipedia eller Google. Och framför allt kommer man att kunna återanvända inte bara katalogposter, utan enskilda element med information.

Förändringen i tankesättet är ganska stor, eftersom man nu beaktar skillnaden mellan tecken och begrepp genomgående. Men jag tror det är mycket klokt att vänja sig vid den tanken. Vi kommer att få så mycket bättre reda på all information på det sättet, även om det i början kommer att kräva en hel del av både bibliotekarier och systemutvecklare. Men i längden betyder det att man får ut mycket större nytta av det viktiga katalogiseringsarbete som görs.

Också i Finland tas steg, som gör att vi snart kan återkomma till utvecklingen här. Och i början av januari 2018 smäller det, då KB byter system. Heja ni!

lördag 11 november 2017

Artificiell intuition

Tractographic reconstruction of neural connections
By Thomas Schultz (Own work) CC BY-SA 2.5-2.0-1.0 via Wikimedia Commons

Om en gitarr med strängar kostar 110 euro och gitarren kostar hundra euro mera än strängarna, vad kostar strängarna? 

Ditt spontana svar var troligen fel. Daniel Kahnemann fyller sin bok Thinking, fast and slow med massor av liknande exempel, experiment som han och hans kolleger (bland andra Thaler) har gjort i decennier. Han bevisar gång på gång hur lat vår hjärna är. Att tänka efter kräver en stor ansträngning, mycket energi, och därför skippar vi för det mesta att tänka analytiskt. I stället resonerar vi spontant, intuitivt, och drar massor av slutsatser hela tiden utan att vi ens märker det. Och inte sällan uppåt väggarna.

Vi påverkas av referensvärden, fördomar och kontextuella detaljer som ofta kan leda oss vilse. (Jag tar medium, den är så mycket billigare.) Vi är motvilliga att ta risker som kan leda till förluster, men ju sämre utsikter vi har att klara oss desto mer riskbenägna är vi. (Kanske klimatforskarna ändå har fel?) Varje investering är en emotionell satsning, som gör det svårare att bedöma risker och kostnader rationellt. (Jag har redan satsat så mycket på detta, bäst att satsa lite till även om utsikterna att lyckas är sämre än fifty-fifty.)  Vi övervärderar sannolikheter nära 0 och 1 alldeles på tok i jämförelse med andra odds. (Den som inte lottar kan ju inte vinna.) Ju mer komplexa eller extrema situationer är, desto svårare är det att vara rationell.  

Det var ju en och annan humanist som skrattade gott åt att man inom ekonomi ger stora pris åt folk som bevisar att folk inte är rationella. Samtidigt är det skrämmande att se att till och med enkla val lätt blir konstiga: Om du är på väg på teater och betalat 50 euro för biljetten, men vid ankomsten tappat biljetten köper du sannolikare inte en ny, än om du tappat 50 euro och tänkt köpa biljetten vid luckan. Förlusten svider mera för att du redan investerat. Kahnemann och beteendeekonomin förklarar varför metron och andra stora projekt oftast går över budget och varför försäkringar fungerar. Och varför mäklare och chefer ofta är lika bra eller till och med sämre än slumpen. Ibland, ibland, är det intuitiva, slappa tänkandet till och med till nytta. Men ofta är det en fälla. Att inse när man ska tänka efter är inte alltid lätt. Och också om man försöker är det svårt. För vi värdesätter ju verkligen inte bara pengar heller. Men också annan risktagning och ännu oftare riskaversion i livet kunde kanske vara bra ta fundera lite mera på. Alltför ofta gör man inget.

Det är förstås också därför människor är så förutsägbara och därför Google och andra vet vad folk kommer att göra, hurdana val och handlingar som följer på varandra. Det är vårt lata "system 1", som Kahnemann kallar det, som är i aktion. Facebooks och Googles datamassor speglar våra mest oreflekterade rutiner och handlingar. Är det också dem vi matar våra artificiella intelligenser med? Dem, som uppförstorar, förstärker och mångfaldigar våra mest inrotade fördomar och vanor?

Intuition handlar om sannolikheter. Det handlar om erfarenhetskunskap som leder oss och bär oss då, när vårt långsamma analytiska eftertänksamma system 2 slumrar. Vi känner igen tecken, subtila vinkar som vi sett många gånger förr och som kanske omedvetet leder oss på rätt spår. Men ofta hoppar vi över flera steg i resonemangen utan att inse det. Erfarenhet ger intuition. Som Siilasmaa förklarar på videon nedan handlar också (en form av) maskininlärning om att hantera sannolikheter genom att bygga upp erfarenheter. Men maskinen kan inte tänka efter. Och om alla dess erfarenheter baserar sig på data som inte är genomtänka kan den bara berätta om vanliga saker. Den kan berätta dem bra och känna igen viktiga mönster i stora mängder information. De artificiella neurala nätverken är otroligt spännande svarta lådor.

Men intelligens har de inte så tillvida att de skulle kunna använda något de lärt sig på något nytt och kreativt sätt. Egentligen är det mera som intuition. Maskinen behöver fortfarande människan som handleder och utvärderar resultaten. Som står för intelligensen.








söndag 5 november 2017

Gränslösa data

I arbetet med forskningsdata har jag kämpat med en inte obekant utmaning, nämligen definitionen av vad forskningsdata är. I officiella sammanhang brukar man definiera dem som "data som underbygger forskning". Men i vilket skede blir till exempel vanliga öppna data "forskningsdata" och var ska de förvaras och katalogiseras i olika skeden?

Vi har flera olika datakataloger och dessutom kopierar man flitigt metadata till olika aggregerade kataloger. För alla vill förstås ha så omfattande kataloger som möjligt. Jag ser ändå en stor risk i att alla kopierar data och metadata kors och tvärs. Slutresultatet riskerar bli ett totalt virrvarr, där varken forskare vet var de ska publicera sina data och metadata eller söka efter material av olika typ. Ännu värre blir det om man börjar rådda in publikationer utan urskillning. Tyvärr har vi Finland både stora och små katalogtjänster och plattformar som gjort det misstaget. Det har saknats både styrning, strukturer och omdöme.

Vi börjar nu vara i ett läge då det är viktigt att ta i detta och profilera olika typer av både material och tjänster. I ett läge där man ha känslan att kvantitet är viktigare än kvalitet då det gäller finansiering (skuggan av kvantitativa mätare hänger tung över varenda projekt i vår tid), är det viktigt att ha klara uppdrag och avgränsningar, annars riskerar man göra informationsförvaltning och sökbarhet en björntjänst.

Orsaken att det inte funnits klara uppdrag är att det inte funnits entydiga definitioner på olika typer av data. Och det beror ju på att det inte finns några klara gränser och på att hela fältet varit nytt och extremt svårt att greppa. Har åtminstone jag tyckt. Men denna vecka nådde vi, tror jag, ett genombrott då jag med ett par naturvetarkolleger satt och diskuterade problematiken. Vi har nu skissat upp en tredelning. För lösningen var antagligen att det är just en tredelning och inte en tudelning (icke-forskningsdata och forskningsdata). Tanken är bara en idé ännu och vi ska jobba vidare på detta. Men jag vill gärna testa konceptet med att försöka förklara det på ett enkelt sätt. Om det går.

A. Öppna data

Dessa dataprodukter är till format och standarder mogna och stabila. De omfattas t ex av europeiska direktiv och kan vara ISO-standardiserade. Samtidigt kan de vara dynamiska dataset eller öppna gränssnitt. Detta är sådana data som borde finnas i Avoindata.fi eller Paikkatieto-katalogen (av vilka avoindata.fi är den heltäckande som innehåller alla typer, dvs den kan hösta metadata från paikkatietohakemisto). Det kan vara data från olika vädertjänster eller andra instrument. Här hittar företag data att använda då de vill bygga olika tjänster eller myndigheter varandras data. Forskare kan förstås också använda sig av dessa källor, men de är inte framtagna särskilt för forskning.

B. Allmänna forskningsdata

Det här är data som är framtagen av forskare. Det kan vara mycket rå data och den är inte alltid helt stabil, eftersom dessa produkter oftast är under utveckling. Det kan vara olika typer av vetenskapliga mätningar. De är väl dokumenterade så att de går att använda för olika ändamål. De alltså validerade och av bra kvalitet. Det innebär t ex mycket teknisk information och dokumentation av insamling och produktion. Som exempel kan jag nämna SMEAR-data, som man kan studera i AVAA-portalen där det också finns andra liknande exempel. Andra exempel är de flesta korpusar i Språkbanken.

C. Specifika forskningsdata

Dessa dataset har uppstått i samband med en viss specifik forskningsfråga och återanvändbarheten är sällan hög, om det inte är en mycket mogen disciplin inom data och kvantitativa metoder. Data är ofta processade och analyserade data som publiceras i samband med forskningens resultat. Dessa dataset är absolut stabila, för ett av deras viktigaste syften är att fungera som stöd för specifik forskning så att den kan granskas och upprepas. En stor del av Dataarkivets material är sådant material.


Som sagt, detta är en grov indelning och det finns data som befinner sig i gränsmarkerna. Men en dylik kategorisering och tankemodell kunde också hjälpa forskare att gestalta datas livscykel och hur man kan publicera och hänvisa då man arbetar med data. Dessutom skulle denna indelning hjälpa vid förvaltandet av både data och metadata. Vi kunde beskriva våra olika söktjänster dels genom att ange deras disciplinära profil, dels denna profilering. Då kan man också bättre berätta vad sammanställda datakataloger innehåller. Vi borde inte ha för många tjänster som innehåller allt, bara för att alla vill vara så stora som möjligt. Det gynnar ingen.


tisdag 31 oktober 2017

Ping! Du är digital!

I dag bar det av i ottan mot Vasa för att tala för finlandssvenska bibliotekarier. Temat var digitalisering. I regeringsprogrammet råkar det nämligen stå : ”Genom förnyelse av verksamhetssätten görs de offentliga tjänsterna användarorienterade och i första hand digitala” och vidare förklaras det att ”(m)edborgarnas rätt att övervaka och besluta om användningen av information som gäller dem själva stärks, samtidigt som en smidig överföring av information mellan myndigheterna säkerställs.”

Men den digitala klyftan, risken för marginalisering av olika grupper då? På ett sipiläskt sätt står det som ett faktum, att ” (d)e medborgare som inte är vana med digitala tjänster eller som inte klarar av att använda dem får hjälp med det.”

Nu är det ju så, att även om det anvisats massor av miljoner för att ta fram dessa tjänster, står det ingenstans riktigt klart hur denna digitalisering ska genomföras på ett mänskligt plan och hur man ska stöda det pedagogiska arbete som är nödvändigt för att alla de fina tjänsterna faktiskt ska slå igenom. Hur användarvänliga tjänsterna än är behövs ansenliga insatser för att pedagogiskt stöda övergången.

Det finns inte heller, som i Sverige, massor av miljoner för att se till att utbilda och förbereda dem som gör arbetet i praktiken. Det är nämligen de allmänna bibliotekens personal som, tillsammans med en del aktörer inom tredje sektorn, får ta emot frågorna av vilsna medborgare som inte kanske ens äger en dator.

Med tanke på att det är över hundra tjänster som ska göras i första hand digitala, att myndigheterna primärt tänker börja kommunicera med folk per e-post via suomi.fi nästa år, är denna bit enligt min mening lindrigt sagt underresurserad. Det händer att till och med banker har mage att utlokalisera kundrådgivningen till biblioteken. Vilket verkligen inte känns okej mot de samvetsgranna bibliotekarierna som inte vill riskera folks integritet. Eller hur ligger det till med ansvaret för en misslyckad ekonomisk transaktion eller beställning?

Rådet för de allmänna biblioteken har nyligen tagit fram en del information om hur läget är ute på fältet. Ungefär hälften av de över 700 biblioteken svarade.

Vid tre av fyra bibliotek har man gett individuell handledning åt människor i användning av it-utrustning. I över hälften av fallen är det bibliotekens personal som ger handledning vid användning av elektroniska tjänster (andra än bibliotekets egna).

Samtidigt vet man inte vid biblioteken om det finns någon plan, några direktiv eller resurser för hur sådana tjänster ska skötas för vuxna i den egna kommunen. Människor behöver mycket hjälp med Egen Kanta, FPA, Suomi.fi och bankärenden ... Det tar oftast 10-15 minuter att handleda en kund, vilket kan vara svårt att hinna med om man är ensam eller väldigt få på biblioteket. Och det är inte ovanligt. Det var i själva verket över 66% av de som svarade som hade färre än fem anställda. Illa är också att utrustning saknas på väldigt många bibliotek. Det var Päivi Litmanen-Peistala som presenterade resultaten av enkäten som kommer att publiceras på biblioteken.fi.

Huvudtalaren kom från Sverige. Det var Ida Norberg som gjort en stor utrednining om folkbibliotekens insatser för för digital delaktighet. I Sverige svarade hela 91% av kommunerna och utredningen hade kompletterats med djupintervjuer som uppenbarligen gett mycket bra extra information. Till exempel hade det visat sig att nära samarbete med kommunal förvaltning gav mycket bra effekt och att det varit en god idé att på kommunen helt skilja på it-drift+support och it-utveckling.

I Sverige har man under den stora Digidel-satsningen byggt upp ett nätverk för kompetens och koordination och nu jobbar man vidare bland annat med integrationsmedel. I Sverige jobbar hela 80% av biblioteken aktivt med digital kunskapshöjning, främst under två årliga kampanjveckor. I Finland har man på svenska sysslat med Seniorsurf och det av Digidel inspirerade InkluderaFlera-projektet. Det projektet, som tog sikte på just seniorer, är nu slut och borde får en fortsättning där man bra kunde fokusera på att stöda bibliotekens e-stöd. Enskilda kampanjveckor räcker ändå inte. Det behövs mera fortgående arbete,  det behövs resurser som tid och apparater och det behövs kompetens.

I synnerhet på svenska är det faktiskt akut, eftersom svenska material och webbtjänster släpar efter. Serviceproducenterna borde också åläggas vid upphandlingarna att producera demo-miljöer och informera och utbilda bibliotekspersonal.

Min egen presentation säger inte så mycket, men jag talade om den stora samhälleliga utmaningen digitaliseringen innebär och bibliotekens viktiga roll i den.


lördag 28 oktober 2017

Arkivens vara eller inte vara

Material in the New Orleans city archives
By ALA TechSource
(Flickr: Material in the New Orleans city archives)
[CC BY-SA 2.0 ] via Wikimedia Commons

I Finland höll man på länge och väl med att förnya arkivlagen och det har man börjat med i Sverige också. Den digitala miljön ställer nya krav. Den finska nya lagen möjliggjorde att man kan göra sig av med moderna pappersarkiv, när det finns digitala varianter att tillgå. Vi måste ändå klara detta med långsiktigt digitalt bevarande och vi drunknar i papper. Men för övrigt har inte riktigt lagstiftningen klarat av transformationen. Vi har fortfarande en lagstiftning som är splittrad i åtminstone nio olika lagar. Ingenstans tar man riktigt ställning till helheten och hur den ska hänga ihop.

Vi har i vårt land emellertid i flera år tillbaka sysslat med ett omfattande arkitektur- och koordinationsarbete. Man har producerat mängder av rekommendationer som tyvärr efterlevs  i varierande grad. Processerna är långsamma, men det handlar om stora system med en stor tröghet. Finansministeriet har också ett ytterst viktigt projekt för interoperabiblitet, där man arbetar  på en tillräckligt hög semantisk abstraktionsnivå. Nu har man även satt igång ett lagberedningsarbete för att förnya hela lagstiftningen för offentlig informationsförvaltning. I det stora hela känns det ganska hoppfullt, saker går absolut i rätt riktning och det finns förutsättningar till vettiga helhetslösningar gällande informationsförvaltningen. Vi har i själva verket kommit mycket långt i Finland.

Det finns emellertid ett orosmoment och det är att man inte tillräckligt beaktar arkivbildningen och bevarandet av information på grund av den snäva arkivlagen. Även frågorna om hur man hanterar dynamiska material och resurser ur bevarandesynpunkt är en utmaning. Här kunde finnas en hel del att hämta från forskningsdatasidan, där frågor om identifierande, proveniens och möjligheten att återskapa eller ta fram specifik digital information länge har varit centrala frågor. Även om man inte är fullt på det torra (lindrigt sagt) har man ändå redan omfattade erfarenhet av hur man kan hänvisa till exempel till databaser och hur versionshantering kunde se ut.

Med tanke på medborgarnas rättskydd är det verkligen viktigt att man inte förstör information avsiktligt  eller oavsiktligt. Myndigheternas verksamhet måste kunna granskas i efterhand. Man kan inte förstöra information av "integritetsskäl". Den bör arkiveras enligt ordentliga arkivbildningsplaner. Här har Riksarkivet en central roll som garant för att information bevaras för eftervärlden. Därför måste dess mandat vara starkt, samtidigt som arkivtänkandet måste kunna förnyas så att man kan styra arkivbildningen på ett vettigt sätt för dynamiska resurser. Allt kan inte bevaras.


onsdag 25 oktober 2017

Bibliotek forever

Det som gjorde mig sådär absurt glad var att man lyfte fram IIIF på årets stora biblioteksträff i Finland. Annars också var ju Simeon Warner en bra keynote med en mycket lång erfarenhet inom olika viktiga projekt såsom arXiv, OAI, Vivo och annat viktigt inom öppen vetenskap.

Själv hade jag äran att sitta i en panel efter keynoten och visionera om bibliotekens framtida roll. Det var roligt att vara tillbaka i bibliotekskretsarna och -perspektivet. Jag talade mig varm för biblioteken som ett oändligt viktigt icke-kommersiellt rum, inte bara i shoppingcentren utan också i det digitala landskapet. Att slå vakt om kunskap och information, att överbrygga digitala klyftor, att aktivt erövra domäner för allmännyttig verksamhet, att erbjuda plattformar för människor ... det finns hur mycket som helst beställning för bibliotek i framtiden.

Webben och dess standarder dominerar ohjälpligt den digitala verkligheten.


Men Warner talade mycket om hur biblioteken riskerar marginalisera sig själva om de inte förmår förnya sig. Samtidigt tycker jag de har en viktig roll som en konservativ kraft som ifrågasätter hype. Biblioteken ska vara en vis aktör, som inte hoppar med i första bästa nya fläng. Men är det kanske ändå dags att se över teknologier som på allvar hotar isolera hela den kunskapsbas man besitter från den övriga webben?

Länkad data och metadata var i princip det huvudsakliga ämnet för debatten.  Det skulle gälla för biblioteken att också på webben erbjuda icke-kommersiella rum, men det kräver kanske avkall på vissa principer. Att man tillsammans jobbar med att förbättra den länkade datan, de beständiga identifierarna, kuratering av metadata och innehåll. Att man öppnar för nya typer av digital samverkan. Det är ändå precis just det man är så bra på, och exakt det som behövs.

Att se öppen länkad data som en möjlighet snarare än en hot är kanske inte lätt. Det handlar om en rätt radikal kopernikansk vändning. Att kontexten dessutom är svårgripar, gränslös och virtuell gör inte saken lättare. Men som tur är bibliotekarierna kloka och vill alla väl.

söndag 22 oktober 2017

Utmaningar för digital humaniora

Nej, jag tänkte inte här närmare kommentera Brennans artikel  The Digital-Humanities Bust, som fått twitter att koka utan snarare berätta lite om två mycket olika seminarier jag besökt denna vecka.

Det första var onsdagens Digital Humanities Summit ordnat av Heldig, centret för digital humaniora vid Helsingfors Universitet. Konceptet med över femtio femminuters presentationer fungerade rätt bra, utom att det ju hände emellanåt att man missat flera stycken. Det är trots allt en övermänsklig prestation att lyssna koncentrerat i timmar i sträck. Att tankarna vandrar en stund, inte minst om man i misstag råkar få en insikt eller göra en intressant association, är ju inte så farligt under ett entimmes föredrag. Men här var det värre. Tack vare att det finns rikligt med material på seminariets hemsida är skadan inte irreparabel. Tvärtom finns här nu en fin översikt av forskningsläget, om än inte heltäckande,  mycket mångsidig och intressant. Utvecklingen är imponerande.



För att göra forskning med digitala medel är man beroende av data. Och mjukvara. Och hårdvara. Vad som oroar mig är fortfarande ett hot om bristande integration av teknologier och processer. Men också av digitala humaniora med de andra kunskapområdena, som det är meningen att de digitala metoderna ska stöda i att svara på forskningsfrågor. Det är en sak som kan försvåras av den separata positionen som en egen enhet i den nya organisationen vid Helsingfors universitet. Det gäller att jobba hårt på att överbrygga avdelningsgränserna. Att utnämna en viss kategori metoder till en egen avdelning känns lite lustigt, men är det det? (Bör funderas på)

Själv ser jag digitaliseringen som en möjlighet att föra samman människor och kunskap. I själva verket mer än en möjlighet. I längden är det oundvikligt. Men det är inte alltid en lätt sak att se nya fenomen i sina rätta proportioner och sammanhang.

Den andra utmaningen, kvaliteten och beständigheten i processerna är ett ämne som diskuterades vidare, till en liten del, under fredagens workshop kring källhänvisningar till data. Forskningens kvalitet utmanas ohjälpligt av digitaliseringen. Att dokumentera arbetet och bevara och skydda källmaterialets och de maskinella metodernas och processernas integritet på längre sikt är en stor utmaning, som man verkligen inte ska vifta bort. Vi behöver värna om kvaliteten på forskningen. Det sker bäst genom öppenhet och transparens, men det räcker inte ensamt. Man måste också se till att välja hållbara lösningar. Vanliga webbadresser är till exempel inte sådana.



FAIR data and the Etsin service from Jessica Parland-von Essen
Min presentation på Heldigseminariet.