Datadumpar från SwePub Analys

Som ett komplement till de data som kan sökas fram via gränssnittet för SwePub för analys och bibliometri på adressen bibliometri.swepub.kb.se finns nu även datadumpar att ladda ned. Länkar till datadumparna finns på sidan  http://www.kb.se/libris/SwePub/Technical-information/

Datadumparna finns i flera olika uppsättningar som packade ZIP-arkiv med kommaseparerade datafiler (CSV); dels en hel dump för alla fält och alla år, dels uppdelat som en dump per år för åren 2011 och framåt samt flerårsdumpar för åren före 2011. Dumpen för alla fält alla år är rätt omfattande, då den innehåller cirka 1,2 miljoner publikationsposter vilket ger en fil om cirka 7,5 GB efter uppackning.

Datadumparna levereras i sk. databasdenormaliserat skick i CSV-format, vilket innebär att varje publikation förtecknas över flera rader beroende på upprepad information i publikationsposten (t.ex. en rad per författare). Dumpen med data för alla år innehåller t.ex. cirka 15,8 rader (alltså i genomsnitt 10 rader per publikation) på grund av denormaliseringen och upprepningen av posterna på flera rader.

Datadumparna består av alla fält i de poster som samlats in till SwePub söktjänst och analystjänst i den form de nått Kungliga biblioteket, dvs. posterna är inte deduplicerade eller förädlade på något vis. Planer finns på att i framtiden även leverera dumpar med deduplicerade och förädlade data.

De nuvarande planerna i SwePub-projektet är att datadumparna ska produceras månatligen i slutet av varje månad.

Annonser
Det här inlägget postades i Bibliometri. Bokmärk permalänken.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s