Dataset beskrivelse

Før data uploades til EnergyDataDK, skal dataejere give specifikke oplysninger om deres data.

Disse oplysninger er afgørende for at sikre problemfri dataanvendelse for både brugere og dataejere.
De fleste oplysninger er synlige for alle brugere, medmindre andet er angivet.

Denne vejledning består af to dele:

Opsætning af et datasæt
Opsætning af en datastrøm

Opsætning af et datasæt

Et datasæt er i bund og grund en samling af indbyrdes forbundne datastrømme. Derfor er der ikke behov for mange oplysninger for at oprette et. Datasættet skal naturligvis have et navn, så det kan identificeres, et MQTT-emnepræfiks, for at identificere datasættet for en databroker, en beskrivelse, for at specificere detaljer om de data, der er indeholdt i datasættet, og endelig kan et billede tilføjes for at gøre datasættet visuelt lettere at identificere i datasætoversigten.

TL;DR

Datasæt skal have et unikt navn og et MQTT-emnepræfiks. Sidstnævnte er i bund og grund det første niveau i et hierarki. I dette eksempel på et MQTT-emne: denmark/hovedstaden/lyngby, ville præfikset være denmark.
Præfikset må kun bestå af bindestreger, understregninger og alfanumeriske tegn.

Datasæt skal også have en korrekt beskrivelse, der informerer om kilde, periode, uregelmæssigheder, anvendelse og en POC.

Valgfrit kan et billede uploades for at repræsentere datasættet grafisk.

Dataset navn

Navnet på datasættet vil være det primære middel til at identificere, hvilke data der er indeholdt i datasættet, for EnergyDataDK-brugere. Navnet skal være intuitivt for dataejeren, interne og eksterne brugere.
Vi foreslår at inkludere et projekt-, virksomheds- eller laboratorienavn og at inkludere informationstypen.

Her er nogle eksempler:

Projekt navn/Vind data
Master these/X data;
Virksomhedsnavn/Projekt navn

MQTT topic præfiks

MQTT-emner er en fundamental del af, hvordan MQTT-protokollen sender beskeder mellem udgivere og abonnenter. De fungerer som “adresser”, der definerer, hvor hver besked skal leveres. MQTT-emner er hierarkiske og har niveauer adskilt med skråstreger (/). Så du kan betragte præfikset som det første niveau i hierarkiet.
For eksempel, hvis dette ville være vores MQTT-emne: usa/california/san-francisco/silicon-valley, så ville usa være vores MQTT topic præfiks.

Et topic præfiks er en enkelt streng af alfanumeriske tegn, understregninger og bindestreger. Da MQTT topics desuden skelner mellem store og små bogstaver, anbefales det kun at bruge små bogstaver. Topic præfikset er kun synligt for datasætsejere. Du kan læse mere om dets brug i API-beskrivelsen.

Vigtigt: Kun alfanumeriske tegn, bindestreger, understregninger og skråstreger er tilladt. Mellemrum kan ikke bruges til at adskille ord.

Beskrivelse

For at sikre problemfri dataanvendelse for både brugere og dataejere er det afgørende at give omfattende oplysninger om datasættet. Dette bør omfatte følgende:

Generel beskrivelse af dataene (type, kilde osv.)
Datagranularitet i datasættet
Period covered by the dataset
Kendte uregelmæssigheder
Brugsbegrænsninger
Kontaktperson

Datasætbeskrivelsen kan redigeres af dataejere efter datasættets oprettelse og bør opdateres hurtigst muligt, når ovenstående oplysninger er tilgængelige, eller hvis noget ændrer sig.

Eksempel på en beskrivelse af et datasæt

Datasættet består af syntetiske data genereret til demonstrationsformål. Det indeholder tilfældigt genererede poster, der repræsenterer forskellige datatyper, der almindeligvis anvendes i strukturerede datasæt. Datasæt struktur:

Alfanumeriske data: 2 uafhængige datastrømme, der indeholder tilfældigt genererede tekststrenge.

Heltaldata: 3 uafhængige datastrømme med tilfældigt genererede tal.

Boolske værdier: 1 datastrøm, der repræsenterer sand/falsk værdier.

Datasættet indeholder 100 poster, der spænder fra 1. april 2023 til 5. april 2023. Der mangler værdier mellem kl. 14:00 og 18:00 den 4. april på grund af servervedligeholdelse, der blev udført på det tidspunkt. Data registreres med times mellemrum. For at bruge datasættet skal brugeren underskrive en fortrolighedsaftale. For yderligere oplysninger vedrørende datasættet og fortrolighedsaftalen, kontakt venligst: example@email.com

Billede

Det er valgfrit at tilføje et billede, men det gør det nemmere at identificere datasæt.
Hvis du har mange datasæt, skal du undgå at bruge det samme billede til alle disse, da det ville modvirke formålet.

Billedet skal være intuitivt for både dataejeren og brugere med adgang til dataene.

Opsætning af datastrømme

En datastrøm er i bund og grund en kanal, hvor data fra en sensor, måleenhed eller lignende modtages.
Alle observationer på kanalen er en tuple med et tidsstempel, der angiver, hvornår observationen fandt sted, og hvilken værdi der blev målt.
Alle tidsstempler i EnergyDataDK er i UTC-tid.

Hver datastrøm tildeles et navn, et MQTT topic suffiks og en datatype, og den beskrives af et antal obligatoriske tags (metadata), der kvalificerer dataene.

TL;DR

Datastrømme skal have et unikt navn og et MQTT topic suffiks. Sidstnævnte er i bund og grund den del af MQTT topic, der ligger ud over præfikset (første niveau) i den hierarkiske struktur. Så i dette eksempel: denmark/hovedstaden/lyngby, ville suffikset være hovedstaden/lyngby.

Suffikset må kun bestå af bindestreger, understregninger, skråstreger og alfanumeriske tegn.

Datatypen (heltal, double eller streng) i datastrømmen skal deklareres.

Der er et fast antal obligatoriske felter, der skal udfyldes, og du kan desuden tilføje et stort set ubegrænset antal ekstra metadatafelter.

Datastrøm navn

Ligesom med datasættet er det vigtigt at vælge et navn omhyggeligt, der gør det nemt for enhver bruger at forstå, hvilke data der registreres i strømmen.

MQTT topic suffiks

Som beskrevet ovenfor er MQTT topic en fundamental del af, hvordan meddelelser dirigeres. Kombinationen af MQTT topic præfikset og -suffikset bruges til at identificere en datastrøm, derfor skal suffikset være unikt! Topic suffikset er kun synligt for datasættets ejer(e) og brugere med “læse”-tilladelse til datasættet. Et MQTT topic suffiks kan udelukkende bestå af flere alfanumeriske strenge adskilt af “/”, som angiver niveauerne i topic hierarkiet. For eksempel, hvis det er vores MQTT topic: usa/california/san-francisco/silicon-valley, så vil california/san-francisco/silicon-valley være vores MQTT topic suffiks.

Vigtigt: Kun alfanumeriske tegn, bindestreger, understregninger og skråstreger er tilladt. Mellemrum kan ikke bruges til at adskille ord.

Datatype

You must specify the datatype of the datastream. This can be one of the following:

Integer
Hele tal uden decimaler.
Double
Tal med decimaler. Bemærk at du skal bruge et punktum og ikke et komma som decimalseparator!
String
Ord eller endda hele sætninger, inklusive tal og specialtegn.

Egenskaber

Hver datastrøm har et antal obligatoriske felter, der kvalificerer de indeholdte data.
Du kan også tilføje et stort set ubegrænset antal brugerdefinerede felter.

Comment

Her skal du indtaste mere detaljerede oplysninger om datastrømmen, som ikke allerede fremgår af dens navn.

Data license

Her er nogle CC-licenser, som beskriver brugsbetingelserne, og de er anført fra mest til mindst tilladt nedenfor.

GDPR classification

Selvom GDPR ikke pålægger en specifik klassificeringspolitik, kræver den, at organisationer kategoriserer og beskytter data på passende vis baseret på følsomhed og risiko. Der er flere kategorier af data.

Personoplysninger
Enhver oplysning vedrørende en identificeret eller identificerbar fysisk person, såsom navne, lokationsdata, telefonnumre og online-identifikatorer.
Følsomme data Data, der afslører racemæssig/etnisk oprindelse, politiske holdninger, religiøs overbevisning, fagforeningsmedlemskab, genetiske data, biometriske data eller helbredsdata.
Pseudonymiserede data Personoplysninger behandles, så de ikke længere kan henføres til en bestemt person uden yderligere oplysninger.
Anonymiserede data Data anonymiseres, så den registrerede ikke kan identificeres.

Geo tag

De geografiske koordinater for det sted, hvor dataene er indsamlet. Du kan blot indtaste en region eller adresse i tekstfeltet, så vil systemet tilbyde matchende resultater til din forespørgsel med deres tilsvarende geolokationskoordinater.

Location

Navnet på den installation, hvor dataindsamlingen finder sted.

Organization

Navnet på den organisation, der er ansvarlig for dataindsamlingen.

Project tag

Navnet på det projekt, som dataene indsamles til.

Theme tag

Dette kategoriserer datastrømmen efter dens emne. Da dette sandsynligvis vil ligne det søgeord, der bruges til at finde en bestemt datastrøm, bør det være klart og præcist.

Her er et par eksempler: “Solenergi”, “CO2-udledning”, “fjernvarme” osv.

Unit

Måleenheden for dataene i datastrømmen. Systemet vil foreslå en mulighed baseret på dit input.

Brugerdefinerede egenskaber

Du har mulighed for at tilføje et stort set ubegrænset antal ekstra metadatafelter til din datastrøm, udover de obligatoriske. Dette kan være hvad som helst, som du eller andre brugere finder relevant.

Husk, at navngivningen skal være meget klar og intuitiv, da disse ikke-standardiserede felter vil være. Du kan også overveje at tilføje dokumentation om disse metadatafelter i beskrivelsen af datasættet.