Tutkimusaineiston kuvailulla (data documentation) tarkoitetaan tutkimusaineiston sisällön, keruun, muuttujien ja muiden tutkimuksen kannalta tärkeiden asioiden dokumentoimista ja kuvaamista. Kuvaile tutkimusaineistosi niin, että ulkopuolinenkin ymmärtää, miksi ja miten aineisto on kerätty, sekä millä tavalla sitä voi käyttää omaan tutkimukseen. Keskeistä on kuvailla tutkimusaineiston sisältöä ja rakennetta, eikä tutkimuksessa syntynyttä julkaisua tai johtopäätöksiä. Tuota kuvailutietoja koko tutkimuksen ajan ja kirjaa ylös aineiston keräämisen ja käsittelyn perustietoja. Näin julkaistavan kuvailun tuottaminen aineiston julkaisuvaiheessa helpottuu. Kuvailutietoja voidaan kirjata aineiston yhteyteen tai erilliseen tiedostoon, esimerkiksi README-tiedostoon.
Aineiston kuvailu on tärkeää, koska hyvin kuvailtu tutkimusaineisto on helpommin löydettävissä ja käytettävissä. Aineiston julkaisuvaiheessa kuvailutietojen merkitys korostuu. Julkaise siis aina aineistostasi metadata, joka julkaistaan kansallisessa tai kansainvälisessä aineistojen säilyttämiseen tarkoitetussa palvelussa. Julkaise metadata erityisesti silloin, kun et voi avata varsinaista aineistoa. Näin saat suljetullekin aineistollesi näkyvyyttä ja edistät FAIR-periaatteiden toteutumista oman aineistosi kohdalla.
Kuvailuun suositellaan käytettäväksi tieteenalalle tai omalle tutkimustyypille sopivaa metadatastandardia. Standardin käyttö ei ole pakollista, mutta jos julkaiset aineiston jossakin data-arkistossa, voi arkiston käyttämästä metadatastandardista olla apua oman kuvailun tuottamisessa.
Tutkimusaineiston julkaisuvaiheen metatietojen kuvailu koostuu käytännössä kolmesta kategoriasta, jotka ovat sisältö, käyttöoikeudet ja tunnisteet. Sisältö auttaa muita käyttäjiä löytämään aineiston ja ymmärtämään sen käyttötarkoituksen. Käyttöoikeudet kertovat käyttäjälle, mitä tutkimusaineistolla voi tehdä ja kuka sen omistaa. Tunnistetiedoilla tutkimusaineistosta tehdään mm. viitattavaa.
Tutkimusaineiston julkaisuvaiheen metatietojen kuvailuun sopiva työkalu on CSC:n tuottama ja ylläpitämä Qvain. Qvain tukee kontrolloitujen sanastojen käyttöä, tarjoaa kattavan listan lisensseistä ja luo metadatallesi pysyvän tunnisteen. Qvaimen verkkosivuilta löydät kenttäkohtaisen kuvailuohjeen. Lisäksi Qvaimen avulla voit julkaista metadatasi suoraan Etsin-palvelussa, joka on kansallinen tutkimusaineistojen hakupalvelu. Kuvailutietoja voi julkaista myös esimerkiksi Zenodossa.
Lue lisää:
Tiedostomuodot ja kansiorakenteet
Jos mahdollista, valitse tiedostoformaatiksi sellainen, joka mahdollistaa pitkäaikaissäilytyksen. Suosi sellaisia tiedostoformaatteja, joita on tyypillisesti käytetty tutkimusalalla. Suosi seuraavia ominaisuuksia:
Yleiset, dokumentoidut ja avoimet tiedostomuodot tukevat myös FAIR-periaatteiden toteutumista, koska ne tukevat yhteentoimivuutta (interoperable) ja saavutettavuutta (accessible). Tutkimuksen aikaiset ja pitkäaikaistallennuksen mahdollistavat tiedostoformaatit voivat olla erilaisia. Tutkimuksen aikana dataformaatin valintaan vaikuttaa esimerkiksi se, miten ja millä ohjelmilla aineistoasi käsittelet ja analysoit. Voit joutua konvertoimaan näitä työskentelytiedostoja pitkäaikaistelluksessa käytössä oleviin tiedostomuotoihin.
Suosittelemme seuraavia tiedostoformaatteja pitkäaikaissäilyttämistä varten:
Lisätietoa tiedostoformaateista voit lukea Tietoarkiston Aineistonhallinnan käsikirjasta ja UK Data Servicen tiedostoformaattisuosituksista.
Kansiorakenne ja tiedostojen nimeäminen on keskeinen osa projektin aikaisen arjen kuvailutyötä. Systemaattinen kansiorakenne ja johdonmukainen nimeäminen edesauttavat tiedon löytymistä. Keskeistä on luoda yhtenäinen nimeämiskäytäntö ja noudattaa sitä. Tutkimusryhmässä nimeämiskäytäntö kannattaa sopia yhteisesti. Hallinnan ja löydettävyyden lisäämiseksi kansiot ja tiedostot voi nimetä sisältöä kuvailevasti (esimerkiksi haastattelut, kuvat, mittaukset, tilastot, jne.). Jos tiedostoja ja eri aineistotyyppejä on paljon, kuvailevat pää- ja alakansiot helpottavat kokonaisuuden hallintaa. Nimeämisen suunnittelussa ja toteuttamisessa kannattaa myös tavoitella koneluettavuutta, sillä se edesauttaa tiedostojen koneellista lukemista ja jatkoprosessointia. Kansioiden ja tiedostojen nimiin ei kuitenkaan kannata sisällyttää henkilötietoja, luottamuksellisia, salassa pidettäviä tai arkaluonteisia tietoja.