Nedslag i några aktuella bibliometrifrågor

Den 30 november träffades Metrics-gruppen med gäster på Chalmers i Göteborg för att arbeta med gruppens fjärde uppgift: ”att verka och föreslå former för erfarenhetsutbyte och samverkan mellan lärosäten när det gäller bibliometriska indikatorer, analysmodeller och annan metodik”. Inför dagen hade vi tittat igenom ett antal teman som vi bedömde vara aktuella och bestämde oss slutligen för fyra av dem:

  • beräkning och redovisning av statistik om open access (OA)
  • vad bör vi tänka på när vi väljer analysverktyg som CWTS Monitor, SciVal eller InCites?
  • hur hanterar vi dokumentklassificeringen i Web of Science?
  • en ny källa för citeringar: Crossref

Här nedan återfinner ni resultaten av dagens ansträngningar. Vår förhoppning är att på det här sättet bidra till diskussioner ute på lärosätena. Har ni synpunkter och kommentarer; hör av er till oss eller kommentera gärna direkt här i bloggen.

1. Redskap för OA-statistik

Gruppen enades om att det i dagsläget mest användbara redskapet för att skaffa metadata rörande OA är tjänsten oaDOI och uppslag via dess API. Tjänsten har utvecklats snabbt den senaste tiden och version 2 av API:n levererar nu mer metadata, speciellt med avseende på publikationernas licenser, och gör det därigenom möjligt att lättare särskilja olika typer av OA. Tjänsten används i SwePub, samt i Karolinska institutets och Vetenskapsrådets bibliometridatabaser, för att komplettera metadata med OA-information. Tjänsten har under året också använts av Kungliga biblioteket och Vetenskapsrådet för analyser av svensk OA-publicering.

Definition av open access

För att kunna redovisa vederhäftig statistik rörande OA behövs först en definition av vad som menas med OA, varför gruppen inledde arbetet med en längre diskussion kring detta. Som utgångspunkt för diskussionen användes artikeln The State of OA: A large-scale analysis of the prevalence and impact of Open Access articles av Piwowar et. al. som baserar sig på data insamlat med tjänsten oaDOI. Artikeln introducerar förutom de traditionella kategorierna av OA även en ny kategori benämnd bronze OA för artiklar som är fria att ladda ned och läsa från förlagets webbplats, men som har copyright skriven på förlaget eller saknar uppgift om licens. Ibland benämns denna kategori av OA som delayed, eftersom det ofta dröjer ett antal månader innan förlaget gör artiklarna fria att ladda ned och läsa. Artikeln gör också en omdefinition av begreppet grön OA, så att det bara innefattar artiklar som endast finns fritt tillgängliga från ett repositorium. Om artikeln även finns fritt tillgänglig på förlagets webbplats räknas den istället om guld eller hybrid OA.

Trots att gruppen inte enades om en enkel och entydig definition av OA tog den fram några första förslag till rekommendationer att använda vid framtagande av OA-statistik:

  • Olika analysbehov kan kräva olika definitioner och upplösning av OA-kategorier. Till exempel behöver analyser för uppföljning av OA-krav och uppföljning av kostnader för OA ha olika upplösning av OA-kategorierna, eftersom en uppföljning av kostnaderna ofta kräver åtskillnad mellan hybrid och bronze OA.
  • Vid framtagande av OA-statistik bör det vara tydligt definierat vad som räknats och hur det räknats. På sikt kan vi då samla olika definitioner från olika utredningar och långsiktigt arbeta mot en större konsensus rörande definitionerna.
  • ”Fri att ladda ned och läsa idag” är en pragmatisk basdefinition av OA. Till denna basdefinition går det sedan att lägga skärpta krav inom andra områden, till exempel: återanvändning, långtidsbevarande och metadata.
  • En definition av OA bör inte vara begränsad till någon speciell typ av publikationer. Även avhandlingar och rapporter ska kunna betraktas som OA-publicerade om de är fritt tillgängliga.

Deltagare i diskussionsgruppen kring OA-statistik var Henrik Aldberg, Vetenskapsrådet; Lars Kullman, Göteborgs universitet; Cecilia Sandberg, Umeå universitet; Anders Wändahl, Karolinska Institutet; Lovisa Österlund, Linköpings universitet och Ulf Kronman, Kungliga biblioteket.

2. Vad bör vi tänka på när vi väljer analysverktyg som CWTS Monitor, SciVal eller InCites

Gruppen bestod av personer som genom sitt arbete har tillgång till minst ett av de tre vanligaste analysverktygen: CWTS Monitor, InCites och SciVal. Arbetet mynnade ut i checklista – vad bör vi tänka på när vi är i processen att välja ett nytt verktyg? Då några av deltagarna pratade engelska  är följande text på engelska.

We found differences between these tools – all three with pros and cons – within the following list of topics:

  1. Transparency
    • Level of detail of FAQ and specifications
    • Communicating platform with company
  2. Update frequency
    • Input data: how are they updated
  3. Self-citations & fractionalization
  4. Flexibility
    • Web service calls (API:s)
    • How many ways can data be filtered, turned, compared?
  5. Meta-data/data fields
    • Changing between Citation DB & ’machine’
    • Not all meta-data available in e.g data download
  6. Communication with supplier
    • Ability to have an influence
  7. Publication level data access
  8. Context dependent usability
    • What can be done where in the system?
    • Consistency vs discrepancies
  9. Price

Deltagare i diskussionsgruppen kring analysverktyg var Marie Stråhle, Sveriges lantbruksuniversitet; Tahereh Dehdarirad, Chalmers; Daniel Wadskog, Uppsala universitet; Fredrik Åström, Lunds universitet; Stina Johansson, Chalmers.

3. Hur hanterar vi dokumentklassificeringen i Web of Science (WoS)?

I gruppen diskuterades olika aspekter på dokumenttypsklassificering. Betoningen låg på problem som följer av att utgå från databasspecifik typklassning, t.ex. den som återfinns i WoS. Att identifiera olika feltyper samt deras omfattning blir dock ofta kontextberoende eftersom det inte existerar några gemensam standard eller nomenklatur för att definiera dokumenttyp. Saken kompliceras ytterligare av att databasproducenter inte är explicita med vilka regler som appliceras för att typklassificera dokument, dessutom ändras de över tid (se vidare [1]).

Bland annat behandlades två specifika svårighet kopplade till typklassificering: (A) konceptuella problem kring bestämmande av dokumenttyp och (B) empiriska effekter av ”uppenbar” felklassificering i specifika bibliometriska studier/modeller.  När det gäller (A) klargjordes att det ofta kan vara en god idé att inför en studie ha klara definitioner av vad man avser med olika dokumenttyper så att det finns något annat att luta sig mot än bara de av databasen givna typerna när tvetydigheter inträffar i datainsamlingsfasen. Ett exempel från (B) rörde citeringsnormalisering där olika dokumenttyper ofta har egna referensvärden. Viss evidens [2] finns för att ”uppenbara” fel i klassningen av dokumenttyp i t.ex. WoS tenderar att vara tämligen slumpmässiga och de fel som introduceras då dokument jämförs med fel referensvärde tenderar vara normalfördelade med medelvärde kring 0. I tillräckligt stora datamaterial torde därför felen inte påverka resultaten nämnvärt.

[1] Harzing, A.-W. (2013). Document categories in the ISI Web of Knowledge: Misunderstanding the Social Sciences? Scientometrics, 94(1), 23-34. http://dx.doi.org/10.1007/s11192-012-0738-1

[2] Donner, P. (2017). Document type assignment accuracy in the journal citation index data of Web of Science. Scientometrics, 113(1), 219-236. http://dx.doi.org/10.1007/s11192-017-2483-y

Deltagare i diskussionsgruppen kring dokumentklassificering var Agneta Lindsten, Sveriges lantbruksuniversitet; Jakaria Rahman, Chalmers; Marco Schirone, Chalmers; Cristian Colliander, Umeå universitet.

4. en ny källa för citeringar: Crossref

Ett av de ämnen vi ville ta upp under dagen var andra citeringsindex än de som finns i Web of Science (WoS). Citeringsindexen i WoS har funnits sedan 60-talet och är förmodligen de mest kända och använda även om Elseviers Scopus har börjat användas allt mer. För jämförelser dem emellan av publikationer publicerade i Sverige, finns bl a den här rapporten från KTHB. Google Scholar kan vara ett alternativ, men mycket datastädning kan krävas för att uppnå ett tillförlitligt resultat (se bl a Prins et al  och Harzing). Utöver dessa tre finns andra initiativ som Microsoft Academic Search, CiteSeerX och SciELO och ämnesspecifika databaser.

En ny aktör på den här arenan är Crossref. Crossref började samla referenser 2000. Under 2017 startades ett initiativ, Initiative For Open Citations, I4OC. Målet med initiativet är att tillgängliggöra citeringsdata som är strukturerat och maskinläsbart, separerat från källdata (publikationerna) och öppet att fritt använda. Citeringsdata hämtas från Crossref. Många förlag deponerar redan data för detta, och nära hälften av de 38 miljoner publikationer som har DOI:er via Crossref har nu också öppna referenslistor.

Under dagen testade vi Crossrefs API, en bra ingång till det finns på CWTS blogg förutom Crossrefs egen API-dokumentation. Att döma av de fält som finns med i posterna finns möjlighet att hämta mycket data, begränsningen är att inte all data levereras av förlagen. Vi testade t ex affilieringsdata, som Crossref gjorde tillgängligt via API:et 2015 men som många förlag inte levererar. Vi gjorde en quick & dirty-sökning på Harvard-affilierade publikationer för en viss tidsperiod och jämförde med motsvarande sökning i Scopus. Antalet poster vi laddade ned från Crossref utgjorde en femtedel av Scopus-posterna (och det rör sig förmodligen inte om exakt samma publikationer i de båda uttagen). Det är oklart varför förlagen inte levererar affilieringsdata, ett exempel var PLoS som borde ha de tekniska förutsättningarna för att leverera den här typen av data men inte gör det. I den här tråden finns mer om möjlig utveckling på det här området. CWTS konstaterar i sitt blogginlägg (länk ovan) att det går att göra en hel del men att det gäller att se upp; det finns stora förlag som ännu inte deponerar sin data.

Redan nu kan vi alltså ladda ned data för enklare citeringsanalyser, just affilieringsdata brukar vår egen publikationsdatabas kunna förse oss med och DOI:er kan användas för matchning. Och vem vet, inom en rimlig tid kanske det finns möjligheter till fältnormering? Då behöver vi bara enas om vilka ämnes- och dokumentkategorier som ska gälla…

För den som redan nu vill börja titta på data är det möjligt att ladda ned datadumpar här.

Deltagare i diskussionsgruppen kring Crossref var Hampus Rabow, Malmö högskola och Camilla Hertil Lindelöw, Södertörns högskola.

Annonser
Det här inlägget postades i Uncategorized. Bokmärk permalänken.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google+-foto

Du kommenterar med ditt Google+-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s