Træningsdata i AI: miniature eller dækning?
Der findes kunstig intelligens som kan lære at genkende både billeder og stemmer. Men hvordan lærer den egentlig – og hvad sker der, hvis de data, den er trænet på, viser en skævvridning af virkeligheden? I dette forløb skal I undersøge, hvordan maskinlæring virker, og hvorfor repræsentative data er vigtige.
Det lærer du
- At bruge begreber som ‘Miniature’ og ‘Dækning’ til at beskrive de data som bruges i maskinlæring
- At undersøge store datasæt ved brug af pivot-tabeller i regneark
- At kunne diskutere hvordan kunstig intelligens kan forbedres ved at optimere datasæt
Obs: Elevarket skal printes på enkeltsider før i starter forløbet.
Del 1: Maskinlæring
Maskinlæring i hverdagen
Maskinlæring bruges mange steder i vores hverdag, det bruges blandt andet til:
- Selvkørende biler, som blandt andet kan genkende biler, trafikskilte og fodgængere
- At hjælpe læger med at genkende sygdomme på fx røntgenbilleder
- Sprogmodeller som Google assistant eller Siri, så de forstår hvad du siger
Kan i komme på flere steder hvor maskinlæring bruges?
I skal nu i par prøve en maskinlæringsmodel som ved at kigge på billeder, kan kende forskel på Chihuahuaer og muffins.
Opsamling i klassen: Hvor godt klarede modellen sig?
- Hvilke slags billeder var modellen bedst til at gætte rigtigt på?
- Hvad skete der når i viste modellen billeder af ting den ikke var trænet på?
Men hvad er maskinlæring egentlig?
I skal nu se en video, som forklarer maskinlæring lidt nærmere. Tryk på linket her under for at tilgå videoen.
Når i har set videoen, skal i tage fat i de printede flashcards og gennemgå øvelse 2.
Del 2: Repræsentativitet i træningsdata
Repræsentativitet handler om hvordan man udvælger et datasæt så det minder om den målgruppe modellen skal anvendes på. Der er flere forskellige måder at udvælge et datasæt på ud fra en befolkning og 2 af dem skal i arbejde med nu.
På billedet nedenfor ses to forskellige datasæt som er udvalgt fra den samme befolkning. Diskuter følgende i par:
- Hvordan er disse to grupper udvalgt?
- Hvor stor en andel af hver farve optæder i befolkningen øverst i billedet og i hver af datasættene?
- Hvilken af de to grupper repræsenterer bedst befolkningen?
Opsamling af svar i klassen

Hvad sker der hvis man glemmer repræsentativitet?
I skal nu se et eksempel på hvad der kan ske hvis man ikke overvejer hvordan ens datasæt skal udvælges. Se de første 43 sekunder af denne video:
Maskinlæringsmodellen som hun bruger i videoen var hovedsageligt trænet på billeder af hvide mennesker og havde derfor svært ved at genkende mennesker med mørkere hud.
Dette eksempel understreger hvor vigtigt det er at tænke over hvilke data man bruger når man træner sin model.
Del 3: Mød forskeren
I har lige set at det har stor betydning for en maskinlæringsmodel, hvordan man vælger at repræsentere sin befolkning i form af et dataset. Forskeren Line Clemmensen har i hendes forskning undersøgt netop dette.
Om Line Clemmensen
Line Clemmensen er professor i statistik på Københavns universitet og hun har forsket i de forskellige måder man kan vælge et datasæt på når man skal træne en maskinlæringsmodel. Målet med hendes forskning har været at kunne vælge det datasæt som gør modellen mest retfærdig.
På denne måde kan man forsøge at undgå problemer som det i blev præsenteret for i den video i lige har set.
To måder at udvælge datasæt
Når man udvælger et datasæt ud fra en befolkning, er der som i så længere oppe, flere måder at gøre det på. To af disse måder kalder man ‘miniature’ og ‘dækning’. Man kalder måder som disse repræsentationsformer da hver måde repræsenterer den befolkning man udvælger datasættet fra på hver sin måde.
Miniature
Hvis man udvælger sit datasæt efter repræsentationsformen miniature, laver man et datasæt som ligner virkeligheden, bare mindre. Det betyder at man forsøger at bevare proportionerne i befolkningen man udvælger fra.
Hvis for eksempel 50% af befolkningen tilhører en bestemt gruppe så skal 50% af datasættet bestå af folk fra denne gruppe. Men da datasættet skal være mindre end befolkningen, kan grupper som består af få individer ende med at blive skåret fra.
Modellen der bliver trænet på et datasæt som er lavet efter repræsentationsformen miniature, lærer mere om de store grupper i datasættet end de små.
Til venstre kan i se en illustration af miniature, datasættet er en nedskaleret version af befolkningen, altså en miniature af befolkningen. Billedet er AI genereret
Dækning
Hvis man gerne vil undgå at minoriteterne befolkningen bliver skåret fra når man udvælger datasættet, så kan man bruge repræsentationsformen dækning. Her bevarer man ikke proportionerne af befolkningen, men har i stedet alle grupper i befolkningen med, og lige mange af hver gruppe.
Hvis man for eksempel inddeler en befolkning af danskere i grupper efter alder, så vil gruppen med 100-110 årige være meget lille i forhold til de andre grupper i befolkningen. Hvis man så udvælger et datasæt fra denne befolkning efter dækning, så vil der i datasættet være lige så mange danskere i gruppen 100-110 årige som i alle andre grupper.
Modellen der bliver trænet på et datasæt som er lavet med repræsentationsformen dækning lærer derfor lige meget om alle grupper i datasættet.
Til venstre kan i se en illustration af dækning, datasættet består af lige mange fra hver gruppe. Billedet er AI genereret.
Nu hvor i kender begreberne Miniature og Dækning, kan i måske genkende at billedet med de farvede personer i del 2 var udvalgt efter disse 2 principper.
- Hvilken af datasættene på billedet er udvalgt efter miniature repræsentationsformen?
Del 4: Line Clemmensens forskning
Nu skal I kigge på nogle af resultaterne fra Line Clemmensens forskning.
For at undersøge de forskellige måder at udvælge et dataset på trænede Line to maskinlæringsmodeller til at forudsige folks indkomst. Begge modeller blev trænet på datasæt fra Californien, men det ene datasæt var udvalgt efter miniature, og det andet efter dækning. Målet var derefter at sammenligne de to modeller for at finde de to metoders styrker og svagheder.
For at sammenligne modellerne, undersøgte hun hvor gode de var til at forudsige folks indkomst i andre stater end Californien. Her testede hun dem både på stater, der ligner Californien, og på stater, der ikke gør. At en stat henholdsvis ligner og ikke ligner træningsdataene er bl.a. målt ud fra om dem, der bor i staten, har samme alder, uddannelsesniveau og indkomst.
For at sammenligne resultaterne, har Line udregnet modellernes gennemsnitlige fejl (altså hvor ofte modellen laver fejl i gennemsnit), det betyder at jo højere en gennemsnitlig fejl, jo værre har modellen klaret sig. For staterne New York og New Jersey som ligner Californien, kan den gennemsnitlige fejl for de to modeller ses på følgende graf.
Hvordan klarer modellerne sig når data ligner træningsdata?
Modellerne har forudsagt lønindkomster i de to stater som ligner Californien.
- Hvilken type af repræsentativitet mener i har klaret det bedst?
- Hvordan kan i se at den har klaret sig bedst?
- Hvorfor tror i at den ene klarer sig bedre end den anden?
Line testede herefter modellerne på to stater som ikke ligner Californien, nemlig Alaska og Puerto Rico. Resultaterne kan se i grafen her under.
Hvordan klarer modellerne sig når data IKKE ligner træningsdata?
Modellerne har forudsagt lønindkomster i de to stater som ikke ligner Californien.
- Hvilken af de to typer repræsentativitet mener i klarer sig bedst?
- Hvordan kan i se det?
- Hvorfor tror i at den klarer sig bedre?
For at sammenligne resultaterne for New York og New Jersey med resultaterne for Alaska og Puerto Rico, har line lavet en graf som viser dem alle. Den kan ses her under.
Resultaterne samlet på én graf
Ud fra grafen kan man se at begge modeller klarer sig bedre på stater som ligner Californien end stater der ikke gør.
- Kan i forklare hvorfor?
Opsamling i klassen
Nu har i set og reflekteret over et eksempel fra virkeligheden, hvor der er gjort brug af miniature og dækning. I skal nu i par svare på nogle spørgsmål om de to repræsentationsformer for at teste det i har lært.
Del 5: Når patienterne bliver væk
Mange læger oplever problemer med at patienterne bliver væk fra deres aftaler. Se dette indslag fra der beskriver problemet, se kun de første 3 minutter og 23 sekunder:
I skal nu svare på Øvelse 4 i par.
Kan maskinlæring løse problemet?
Man har ude hos de praktiserende læger forsøgt at gøre problemet mere synligt, man har forsøgt at give bøder til patienter der blev væk og man har forsøgt at sende påmindelses sms’er. Ingen af disse forsøg har dog haft den ønskede virkning.
En ny løsning kunne være at træne en maskinlæringsmodel til at genkende de patienter der typisk bliver væk og hermed booke flere patienter til netop de tider. For at modellen bliver så god som muligt og at den fungerer efter hensigten, er der nogle ting man skal overveje. Svar på følgende spørgsmål i par.
- Hvad er vigtigst: at modellen gætter rigtigt for de fleste (majoriteten) eller at modellen er lige god til at forudsige alle befolkningsgruppers udeblivelser?
- Hvad er det værste, der kan ske, hvis modellen gætter forkert?
- Skal modellen trænes med miniature eller dækning?
Herefter opsamling i klassen
Del 6: Talegenkendelse
I skal nu kigge nærmere på den type maskinlæringsmodeller som kan genkende ord når man taler til den.
Mange ord på dansk udtales forskelligt alt efter hvor i landet man befinder sig, det kalder man for dialekt. Ud over det kan man også udtale ord anderledes fordi dansk ikke er ens modersmål, det kalder man for accent. For at få et indblik i hvor forskelligt vi taler i vores lille land, kan i se denne video fra DR P4 – Dialektskolen.
Accent og dialekt kan gøre det sværere at lave talegenkendelsesmodeller som kan forstå alle former for dansk. Derfor arbejder projektet Doner Din Stemme med at indsamle stemmer fra så mange forskellige danskere som muligt. De vil gøre det nemmere at træne talegenkendelsesmodeller til at forstå dansk, hvilket kan gøre dem brugbare i flere dele af vores samfund end de er idag.
Danskere kan frivilligt gå ind på donerdinstemme.dk og donere deres stemme. For at donere sin stemme skal man:
- Være over 15 år gammel
- Oplyse sit fødselsår, dialekt, køn og postnummer
Herefter skal man læse små tekster op, som bliver optaget og gemt hos Doner Din Stemme. Et eksempel på en tekst kunne være “Hver dag starter Mette sin runde i en af byens parker. Hun tjekker, om stierne er rene, og om der er brug for at beskære buske og træer.“
Hvilken repræsentationsform?
- Diskuter i par hvilken type repræsentation i mener Doner Din Stemme bør bruge til deres datasæt. Dækning eller Miniature?
Del 7: Pivot tabeller
I skal nu undersøge Doner Din Stemmes datasæt. I skal gøre det i regneark med det som hedder Pivot tabeller. Pivot tabeller er meget brugbare når man skal undersøge store datasæt. For at i lige kan lære Pivot tabellerne at kende, skal i først prøve at bruge dem på et mindre datasæt.
Først skal i se en lille video som forklarer hvordan man bruger pivot tabeller.
Hvis i bruger Microsoft Excel skal i se denne video: https://tinyurl.com/4fr3fyev
Hvis i stedet bruger Google Sheets, skal i se denne video: https://tinyurl.com/yv66vfkh
Nu skal i prøve det i så i videoen, download dette regneark og løs opgaverne. Gå endelig tilbage og se videoen igen hvis i bliver i tvivl.
Undersøg Doner Din Stemme datasættet
Nu er i klar til at undersøge datasættet fra Doner Din Stemme. I skal bruge det i har lært fra eksempelopgaverne.
Download først regnearket med datasættet her:
Doner Din Stemme bruger deres datasæt til at træne en talegenkendelsesmodel fra OpenAI. For at se hvor godt modellen klarer sig, tæller de hvor mange af ordene i en sætning modellen hører forkert og udtrykker det ved den procentuelle fejl. Dette ses i datasættet som kolonnen Fejl%.
I skal nu undersøge hvor god modellen er til at forstå dansk alt efter hvem der taler.
Opsamling i klassen
Ud fra det i har lært og de tanker i har gjort jer i dette forløb skal I i klassen diskutere følgende
- Hvorfor er det er vigtigt, at man er opmærksom på repræsentativitet, når man vælger træningsdata til maskinlæring.?
- Hvilke situationer kan opstå, hvis man ignorerer krav om repræsentativitet?
- Hvad er, I jeres øjne, fordele og ulemper ved at bruge Pivot-tabeller, når man arbejder med meget store datasæt?
Tak for denne gang!
