Skip to Main Content

Tutkijan opas vastuulliseen ja avoimeen tieteeseen

Kirjaston opas tutkimuksen ja tutkijan tueksi

Aineiston kuvailu

Tutkimusaineiston kuvailulla (data documentation) tarkoitetaan tutkimusaineiston sisällön, keruun, muuttujien ja muiden tutkimuksen kannalta tärkeiden asioiden dokumentoimista ja kuvaamista. Kuvaile tutkimusaineistosi niin, että ulkopuolinenkin ymmärtää, miksi ja miten aineisto on kerätty, sekä millä tavalla sitä voi käyttää omaan tutkimukseen. Keskeistä on kuvailla tutkimusaineiston sisältöä ja rakennetta, eikä tutkimuksessa syntynyttä julkaisua tai johtopäätöksiä. Tuota kuvailutietoja koko tutkimuksen ajan ja kirjaa ylös aineiston keräämisen ja käsittelyn perustietoja. Näin julkaistavan kuvailun tuottaminen aineiston julkaisuvaiheessa helpottuu. Kuvailutietoja voidaan kirjata aineiston yhteyteen tai erilliseen tiedostoon, esimerkiksi README-tiedostoon.

Aineiston kuvailu on tärkeää, koska hyvin kuvailtu tutkimusaineisto on helpommin löydettävissä ja käytettävissä. Aineiston julkaisuvaiheessa kuvailutietojen merkitys korostuu. Julkaise siis aina aineistostasi metadata, joka julkaistaan kansallisessa tai kansainvälisessä aineistojen säilyttämiseen tarkoitetussa palvelussa. Julkaise metadata erityisesti silloin, kun et voi avata varsinaista aineistoa. Näin saat suljetullekin aineistollesi näkyvyyttä ja edistät FAIR-periaatteiden toteutumista oman aineistosi kohdalla.

Kuvailuun suositellaan käytettäväksi tieteenalalle tai omalle tutkimustyypille sopivaa metadatastandardia. Standardin käyttö ei ole pakollista, mutta jos julkaiset aineiston jossakin data-arkistossa, voi arkiston käyttämästä metadatastandardista olla apua oman kuvailun tuottamisessa. 

  • Digital Curation Center (DCC). Digitaaliseen kuratointiin ja tutkimusaineistojen hallintaan erikoistunut sivusto. Sivustolta löytyy tieteenalakohtaisia metadatastandardeja.
  • Research Data Alliance (RDA). Datan avoimuutta ja uudelleenkäyttöä edistävä liike. Sivuilta löytyy eri tieteenalojen metadatastandardeja sekä työkaluja niiden täyttämiseen.
  • GoFAIR. Hanke edistää FAIR-periaatteiden toteutumista.
  • FAIRSharing. Hanke edistää tutkimusaineistonhalintaan ja kuratoi metadatastandardeja tutkimusaineistojen kuvailuun.
  • Tietoarkisto. Metadataformaatteja Tietoarkiston sivuilta.

Tutkimusaineiston julkaisuvaiheen metatietojen kuvailu koostuu käytännössä kolmesta kategoriasta, jotka ovat sisältö, käyttöoikeudet ja tunnisteet. Sisältö auttaa muita käyttäjiä löytämään aineiston ja ymmärtämään sen käyttötarkoituksen. Käyttöoikeudet kertovat käyttäjälle, mitä tutkimusaineistolla voi tehdä ja kuka sen omistaa. Tunnistetiedoilla tutkimusaineistosta tehdään mm. viitattavaa.

Tutkimusaineiston julkaisuvaiheen metatietojen kuvailuun sopiva työkalu on CSC:n tuottama ja ylläpitämä Qvain. Qvain tukee kontrolloitujen sanastojen käyttöä, tarjoaa kattavan listan lisensseistä ja luo metadatallesi pysyvän tunnisteen. Qvaimen verkkosivuilta löydät kenttäkohtaisen kuvailuohjeen. Lisäksi Qvaimen avulla voit julkaista metadatasi suoraan Etsin-palvelussa, joka on kansallinen tutkimusaineistojen hakupalvelu. Kuvailutietoja voi julkaista myös esimerkiksi Zenodossa.

 

Tiedostomuodot ja kansiorakenteet

Jos mahdollista, valitse tiedostoformaatiksi sellainen, joka mahdollistaa pitkäaikaissäilytyksen. Suosi sellaisia tiedostoformaatteja, joita on tyypillisesti käytetty tutkimusalalla. Suosi seuraavia ominaisuuksia:

  • Yhteentoimivuus monen alustan ja sovelluksen kanssa.
  • Saatavilla ilman maksuja tai rajoituksia.
  • Käytettävissä useilla eri ohjelmistoilla (ei sisällä IPR-ongelmia).

Yleiset, dokumentoidut ja avoimet tiedostomuodot tukevat myös FAIR-periaatteiden toteutumista, koska ne tukevat yhteentoimivuutta (interoperable) ja saavutettavuutta (accessible). Tutkimuksen aikaiset ja pitkäaikaistallennuksen mahdollistavat tiedostoformaatit voivat olla erilaisia. Tutkimuksen aikana dataformaatin valintaan vaikuttaa esimerkiksi se, miten ja millä ohjelmilla aineistoasi käsittelet ja analysoit. Voit joutua konvertoimaan näitä työskentelytiedostoja pitkäaikaistelluksessa käytössä oleviin tiedostomuotoihin.

Suosittelemme seuraavia tiedostoformaatteja pitkäaikaissäilyttämistä varten:

  • Pakkaaminen: TAR, GZIP, ZIP
  • Tietokannat: XML, CSV
  • Maantieteellinen tieto: SHP, DBF, GeoTIFF, NetCDF
  • Videot: MOV, MPEG (MPEG-1/2, MPEG-4), AVI, MXF
  • Äänitiedosto: WAV, AIFF, MP3, MXF
  • Tilastotieto: ASCII, DTA, POR, SAS, SAV
  • Valokuvat: TIFF, JPEG 2000, PDF/A, PNG, GIF, BMP
  • Taulukot: CSV
  • Teksti: XML (ODT, DOCX), PDF/A, HTML, ASCII (RTF, TXT)

Lisätietoa tiedostoformaateista voit lukea Tietoarkiston Aineistonhallinnan käsikirjasta ja UK Data Servicen tiedostoformaattisuosituksista.

Kansiorakenne ja tiedostojen nimeäminen on keskeinen osa projektin aikaisen arjen kuvailutyötä. Systemaattinen kansiorakenne ja johdonmukainen nimeäminen edesauttavat tiedon löytymistä. Keskeistä on luoda yhtenäinen nimeämiskäytäntö ja noudattaa sitä. Tutkimusryhmässä nimeämiskäytäntö kannattaa sopia yhteisesti. Hallinnan ja löydettävyyden lisäämiseksi kansiot ja tiedostot voi nimetä sisältöä kuvailevasti (esimerkiksi haastattelut, kuvat, mittaukset, tilastot, jne.). Jos tiedostoja ja eri aineistotyyppejä on paljon, kuvailevat pää- ja alakansiot helpottavat kokonaisuuden hallintaa. Nimeämisen suunnittelussa ja toteuttamisessa kannattaa myös tavoitella koneluettavuutta, sillä se edesauttaa tiedostojen koneellista lukemista ja jatkoprosessointia. Kansioiden ja tiedostojen nimiin ei kuitenkaan kannata sisällyttää henkilötietoja, luottamuksellisia, salassa pidettäviä tai arkaluonteisia tietoja.

Logo

Email: library@tuni.fi
P. 0294 520 900

Kirjaston kotisivut | Library homepage
Andor

Palaute | Feedback