Data Quality

Peer instruction

What will the query return?

SELECT *
FROM pokemon
WHERE special_defence > 50 AND `name` LIKE "%R"

A) All Pokemon with special defence above 50

B) All pokemon with special defence above 49 and a name ending with R

C) All pokemon with special defence above 50 and a name ending with R

D Invalid Query

What will the query return

SELECT `name`, speed
FROM pokemon
WHERE speed >= 100
ORDER BY speed DESC
LIMIT 3

A) The three fastest pokemon

B) The three slowest pokemon with speed higher or equal to 100

C) All pokemon with a speed higher or equal to 100 ordered by speed

D Invalid Query

What will the query return?

A) All Pokémon where attack > defence and primary type is either rock or fire

B) All Pokémon where attack > defence and primary type is neither rock nor fire

C) All Pokémon where attack > defence and primary type is rock OR if the pokemons primary type is fire

D) Invalid Query

Exercise 1:

  • Observer følgende dataset

    • https://sufoi.dk/obs/obs-2019/obs19-k3/

  • Besvar:

    • Hvad er indholdet i datasettet?

    • Hvilke kvalitetskriterier overskrider datasettet?

    • Beskriv observationer og hvordan kvalitetskriterier overskrides

  • Udforsk:

    • Hvordan er dataen indsamlet?

    • Hvem kan lave indberetninger?

    • Er der en sammenhæng mellem indsamling og kvalitet?

  • Reflekter:

    • Hvordan kan datakvaliteten hæves?

Exercise 2:

  • Opret en database og remove SAFE UPDATE

  • Data Exploration:

    • Hvordan ser datasettet ud? Hvad beskriver det?

    • Identificer kolonner med NULL værdier?

    • Hvilke kolonner har problemer med fejlværdier (ifht. deres skala / "umulige" værdier - fx. en tidslængde mindre end 0)

  • Data Exploration & Data Cleaning

    • Ret 3 NULL fejl i datasettet vha. UPDATE

    • Beskriv:

      • Hvordan fandt i fejlen?

      • Hvordan rettede i fejlen?

      • Hvordan perspektiverer det sig til jeres viden omkring data quality

  • Data Exploration & Data Cleaning

    • Ret 3 umulige værdier () i datasettet vha. UPDATE

    • Beskriv:

      • Hvordan fandt i fejlen?

      • Hvordan rettede i fejlen?

      • Hvordan perspektiverer det sig til jeres viden omkring data quality

Last updated