Et Albatros forløb om repræsentativitet og maskinlæring

Træningsdata i AI: miniature eller dækning?

Der findes kunstig intelligens som kan lære at genkende både billeder og stemmer. Men hvordan lærer den egentlig – og hvad sker der, hvis de data, den er trænet på, viser en skævvridning af virkeligheden? I dette forløb skal I undersøge, hvordan maskinlæring virker, og hvorfor repræsentative data er vigtige.

Det lærer du

  • At bruge begreber som ‘Miniature’ og ‘Dækning’ til at beskrive de data som bruges i maskinlæring
  • At undersøge store datasæt ved brug af pivot-tabeller i regneark
  • At kunne diskutere hvordan kunstig intelligens kan forbedres ved at optimere datasæt
Download materialer til opgaverne

Obs: Elevarket skal printes på enkeltsider før i starter forløbet.

Del 1: Maskinlæring

I klassen

Maskinlæring i hverdagen

Maskinlæring bruges mange steder i vores hverdag, det bruges blandt andet til:

  • Selvkørende biler, som blandt andet kan genkende biler, trafikskilte og fodgængere
  • At hjælpe læger med at genkende sygdomme på fx røntgenbilleder
  • Sprogmodeller som Google assistant eller Siri, så de forstår hvad du siger

Kan i komme på flere steder hvor maskinlæring bruges?

I skal nu i par prøve en maskinlæringsmodel som ved at kigge på billeder, kan kende forskel på Chihuahuaer og muffins.

01 / 02

Øvelse 1: Afprøv modellen

  • Modellen er trænet på 523 billeder af muffins og 538 billeder af chihuahuas.
  • I skal bruge elevarkene til at afprøve modellen. Enten på papir eller computer.
  • I finder modellen her: tinyurl.com/37b847js

Øvelse: Afprøv modellen

  • Vis modellen billederne et af gangen
  • For hvert billede skal i notere om der er en hund eller kage på billedet samt hvad modellens gæt er
  • Fortsæt indtil i har været alle billederne igennem
  • Udregn til sidst hvor mange procent af svarene modellen svarede rigtigt

Opsamling i klassen: Hvor godt klarede modellen sig?

  • Hvilke slags billeder var modellen bedst til at gætte rigtigt på?
  • Hvad skete der når i viste modellen billeder af ting den ikke var trænet på?

Men hvad er maskinlæring egentlig?

I skal nu se en video, som forklarer maskinlæring lidt nærmere. Tryk på linket her under for at tilgå videoen.

  1. Video om maskinlæring

Når i har set videoen, skal i tage fat i de printede flashcards og gennemgå øvelse 2.

01 / 02

Øvelse 2: Hvad blev der sagt i videoen?

På de medfølgende flashcards står der på den ene side et spørgsmål og på den anden side et svar.

Undgå at kigge på svarene når i uddeler 3 flashcards til hver.

Øvelse 2: Hvad blev der sagt i videoen?

I skal nu skiftes til at læse et spørgsmål op for jeres sidemakker.

Gå eventuelt tilbage og se videoen igen hvis i bliver i tvivl om svarene.

Del 2: Repræsentativitet i træningsdata

Repræsentativitet handler om hvordan man udvælger et datasæt så det minder om den målgruppe modellen skal anvendes på. Der er flere forskellige måder at udvælge et datasæt på ud fra en befolkning og 2 af dem skal i arbejde med nu.

På billedet nedenfor ses to forskellige datasæt som er udvalgt fra den samme befolkning. Diskuter følgende i par:

  • Hvordan er disse to grupper udvalgt?
  • Hvor stor en andel af hver farve optæder i befolkningen øverst i billedet og i hver af datasættene?
  • Hvilken af de to grupper repræsenterer bedst befolkningen?

Opsamling af svar i klassen

Hvad sker der hvis man glemmer repræsentativitet?

I skal nu se et eksempel på hvad der kan ske hvis man ikke overvejer hvordan ens datasæt skal udvælges. Se de første 43 sekunder af denne video:

  1. Eksempel på repræsentativitet

Maskinlæringsmodellen som hun bruger i videoen var hovedsageligt trænet på billeder af hvide mennesker og havde derfor svært ved at genkende mennesker med mørkere hud.

Dette eksempel understreger hvor vigtigt det er at tænke over hvilke data man bruger når man træner sin model.

Del 3: Mød forskeren

I har lige set at det har stor betydning for en maskinlæringsmodel, hvordan man vælger at repræsentere sin befolkning i form af et dataset. Forskeren Line Clemmensen har i hendes forskning undersøgt netop dette.

Om Line Clemmensen

Line Clemmensen er professor i statistik på Københavns universitet og hun har forsket i de forskellige måder man kan vælge et datasæt på når man skal træne en maskinlæringsmodel. Målet med hendes forskning har været at kunne vælge det datasæt som gør modellen mest retfærdig.

På denne måde kan man forsøge at undgå problemer som det i blev præsenteret for i den video i lige har set.

To måder at udvælge datasæt

Når man udvælger et datasæt ud fra en befolkning, er der som i så længere oppe, flere måder at gøre det på. To af disse måder kalder man ‘miniature’ og ‘dækning’. Man kalder måder som disse repræsentationsformer da hver måde repræsenterer den befolkning man udvælger datasættet fra på hver sin måde.

Miniature

Hvis man udvælger sit datasæt efter repræsentationsformen miniature, laver man et datasæt som ligner virkeligheden, bare mindre. Det betyder at man forsøger at bevare proportionerne i befolkningen man udvælger fra.

Hvis for eksempel 50% af befolkningen tilhører en bestemt gruppe så skal 50% af datasættet bestå af folk fra denne gruppe. Men da datasættet skal være mindre end befolkningen, kan grupper som består af få individer ende med at blive skåret fra.

Modellen der bliver trænet på et datasæt som er lavet efter repræsentationsformen miniature, lærer mere om de store grupper i datasættet end de små.

Til venstre kan i se en illustration af miniature, datasættet er en nedskaleret version af befolkningen, altså en miniature af befolkningen. Billedet er AI genereret

Dækning

Hvis man gerne vil undgå at minoriteterne befolkningen bliver skåret fra når man udvælger datasættet, så kan man bruge repræsentationsformen dækning. Her bevarer man ikke proportionerne af befolkningen, men har i stedet alle grupper i befolkningen med, og lige mange af hver gruppe.

Hvis man for eksempel inddeler en befolkning af danskere i grupper efter alder, så vil gruppen med 100-110 årige være meget lille i forhold til de andre grupper i befolkningen. Hvis man så udvælger et datasæt fra denne befolkning efter dækning, så vil der i datasættet være lige så mange danskere i gruppen 100-110 årige som i alle andre grupper.

Modellen der bliver trænet på et datasæt som er lavet med repræsentationsformen dækning lærer derfor lige meget om alle grupper i datasættet.

Til venstre kan i se en illustration af dækning, datasættet består af lige mange fra hver gruppe. Billedet er AI genereret.

Nu hvor i kender begreberne Miniature og Dækning, kan i måske genkende at billedet med de farvede personer i del 2 var udvalgt efter disse 2 principper.

  • Hvilken af datasættene på billedet er udvalgt efter miniature repræsentationsformen?

Del 4: Line Clemmensens forskning

Nu skal I kigge på nogle af resultaterne fra Line Clemmensens forskning.

For at undersøge de forskellige måder at udvælge et dataset på trænede Line to maskinlæringsmodeller til at forudsige folks indkomst. Begge modeller blev trænet på datasæt fra Californien, men det ene datasæt var udvalgt efter miniature, og det andet efter dækning. Målet var derefter at sammenligne de to modeller for at finde de to metoders styrker og svagheder.

For at sammenligne modellerne, undersøgte hun hvor gode de var til at forudsige folks indkomst i andre stater end Californien. Her testede hun dem både på stater, der ligner Californien, og på stater, der ikke gør. At en stat henholdsvis ligner og ikke ligner træningsdataene er bl.a. målt ud fra om dem, der bor i staten, har samme alder, uddannelsesniveau og indkomst.

For at sammenligne resultaterne, har Line udregnet modellernes gennemsnitlige fejl (altså hvor ofte modellen laver fejl i gennemsnit), det betyder at jo højere en gennemsnitlig fejl, jo værre har modellen klaret sig. For staterne New York og New Jersey som ligner Californien, kan den gennemsnitlige fejl for de to modeller ses på følgende graf.

I par

Hvordan klarer modellerne sig når data ligner træningsdata?

Modellerne har forudsagt lønindkomster i de to stater som ligner Californien.

  • Hvilken type af repræsentativitet mener i har klaret det bedst?
  • Hvordan kan i se at den har klaret sig bedst?
  • Hvorfor tror i at den ene klarer sig bedre end den anden?

 

 

 

 

Line testede herefter modellerne på to stater som ikke ligner Californien, nemlig Alaska og Puerto Rico. Resultaterne kan se i grafen her under.

I par

Hvordan klarer modellerne sig når data IKKE ligner træningsdata?

Modellerne har forudsagt lønindkomster i de to stater som ikke ligner Californien.

  • Hvilken af de to typer repræsentativitet mener i klarer sig bedst?
  • Hvordan kan i se det?
  • Hvorfor tror i at den klarer sig bedre?

For at sammenligne resultaterne for New York og New Jersey med resultaterne for Alaska og Puerto Rico, har line lavet en graf som viser dem alle. Den kan ses her under.

I par

Resultaterne samlet på én graf

Ud fra grafen kan man se at begge modeller klarer sig bedre på stater som ligner Californien end stater der ikke gør.

 

  • Kan i forklare hvorfor?

 

 

 

 

 

Opsamling i klassen

Nu har i set og reflekteret over et eksempel fra virkeligheden, hvor der er gjort brug af miniature og dækning. I skal nu i par svare på nogle spørgsmål om de to repræsentationsformer for at teste det i har lært.

01 / 02

Øvelse 3: Hvornår er miniature bedre end dækning?

  • Hvilken repræsentationsform skal man bruge hvis ens model skal være bedst til at gætte rigtigt på majoriteten af en befolkning?
  • Hvilken en er bedre til minoriteter?

Hint:

Øvelse 3: Hvornår er det ene bedre end det andet?

  • Hvilken repræsentations form er bedst til at gætte på data som ligner træningsdata?
  • Hvilken en er bedst når det ikke gør?

Hint:

 

Del 5: Når patienterne bliver væk

Mange læger oplever problemer med at patienterne bliver væk fra deres aftaler. Se dette indslag fra der beskriver problemet, se kun de første 3 minutter og 23 sekunder:

  1. Indslag fra Tvmidtvest

I skal nu svare på Øvelse 4 i par.

01 / 02

Øvelse 4: Hvor stort er problemet?

De praktiserende læger i Danmark koster ca. hver dansker 1400kr./år som betales via skatten. I indslaget nævnes 5% udeblivelser.

  • Hvad koster udeblivelserne de danske skatteydere?

Gå til næste slide for at tjekke jeres svar —->

Øvelse 4: Hvor stort er problemet?

Svar: ca. 420mio kr./år 

Kan maskinlæring løse problemet?

Man har ude hos de praktiserende læger forsøgt at gøre problemet mere synligt, man har forsøgt at give bøder til patienter der blev væk og man har forsøgt at sende påmindelses sms’er. Ingen af disse forsøg har dog haft den ønskede virkning.

En ny løsning kunne være at træne en maskinlæringsmodel til at genkende de patienter der typisk bliver væk og hermed booke flere patienter til netop de tider. For at modellen bliver så god som muligt og at den fungerer efter hensigten, er der nogle ting man skal overveje. Svar på følgende spørgsmål i par.

  • Hvad er vigtigst: at modellen gætter rigtigt for de fleste (majoriteten) eller at modellen er lige god til at forudsige alle befolkningsgruppers udeblivelser?
  • Hvad er det værste, der kan ske, hvis modellen gætter forkert?​
  • Skal modellen trænes med miniature eller dækning?​

Herefter opsamling i klassen

Del 6: Talegenkendelse

I skal nu kigge nærmere på den type maskinlæringsmodeller som kan genkende ord når man taler til den.

Mange ord på dansk udtales forskelligt alt efter hvor i landet man befinder sig, det kalder man for dialekt. Ud over det kan man også udtale ord anderledes fordi dansk ikke er ens modersmål, det kalder man for accent. For at få et indblik i hvor forskelligt vi taler i vores lille land, kan i se denne video fra DR P4 – Dialektskolen​.

Accent og dialekt kan gøre det sværere at lave talegenkendelsesmodeller som kan forstå alle former for dansk. Derfor arbejder projektet Doner Din Stemme med at indsamle stemmer fra så mange forskellige danskere som muligt. De vil gøre det nemmere at træne talegenkendelsesmodeller til at forstå dansk, hvilket kan gøre dem brugbare i flere dele af vores samfund end de er idag.

Danskere kan frivilligt gå ind på donerdinstemme.dk og donere deres stemme. For at donere sin stemme skal man:

  • Være over 15 år gammel
  • Oplyse sit fødselsår, dialekt, køn og postnummer

Herefter skal man læse små tekster op, som bliver optaget og gemt hos Doner Din Stemme. Et eksempel på en tekst kunne være “Hver dag starter Mette sin runde i en af byens parker. Hun tjekker, om stierne er rene, og om der er brug for at beskære buske og træer.

Hvilken repræsentationsform?

  • Diskuter i par hvilken type repræsentation i mener Doner Din Stemme bør bruge til deres datasæt. Dækning eller Miniature?

Del 7: Pivot tabeller

I skal nu undersøge Doner Din Stemmes datasæt. I skal gøre det i regneark med det som hedder Pivot tabeller. Pivot tabeller er meget brugbare når man skal undersøge store datasæt. For at i lige kan lære Pivot tabellerne at kende, skal i først prøve at bruge dem på et mindre datasæt.

Først skal i se en lille video som forklarer hvordan man bruger pivot tabeller.

Hvis i bruger Microsoft Excel skal i se denne video: https://tinyurl.com/4fr3fyev

Hvis i stedet bruger Google Sheets, skal i se denne video: https://tinyurl.com/yv66vfkh

Nu skal i prøve det i så i videoen, download dette regneark og løs opgaverne. Gå endelig tilbage og se videoen igen hvis i bliver i tvivl.

  1. Opgaver med Pivot tabeller

Undersøg Doner Din Stemme datasættet

Nu er i klar til at undersøge datasættet fra Doner Din Stemme. I skal bruge det i har lært fra eksempelopgaverne.

Download først regnearket med datasættet her:

  1. Doner Din Stemme datasæt
01 / 02

Øvelse 5: Hvem er repræsenteret i datasættet?

Lav 3 Pivot tabeller og få dem til at tælle hvor mange der er af hver:

  • Køn
  • Årgang
  • Dialekt

Øvelse 5: Hvem er repræsenteret i datasættet?

Når i har lavet de 3 pivot tabeller skal i svare på følgende:

  • Minder datasættet om miniature?
  • Minder datasættet om dækning?
  • Hvilke befolkningsgrupper skal donér din stemme, efter jeres vurdering, forsøge at få flere deltagere fra?

Doner Din Stemme bruger deres datasæt til at træne en talegenkendelsesmodel fra OpenAI. For at se hvor godt modellen klarer sig, tæller de hvor mange af ordene i en sætning modellen hører forkert og udtrykker det ved den procentuelle fejl. Dette ses i datasættet som kolonnen Fejl%.

I skal nu undersøge hvor god modellen er til at forstå dansk alt efter hvem der taler.

01 / 02

Øvelse 6: Hvor god er modellen?

Lav 3 Pivot tabeller og få dem til at sammenligne modellens Fejl% for:

  • Forskellige køn
  • Forskellige årgange
  • Forskellige Dialekter

Lav diagrammer ud fra disse resultater

Øvelse 6: Hvor god er modellen?

Når i har lavet diagrammerne skal i forsøge at svare på følgende spørgsmål:

  • Hvilke grupper har den modellen sværest ved at forstå?
  • Hvilke grupper har den nemmest ved at forstå?

Opsamling i klassen

Ud fra det i har lært og de tanker i har gjort jer i dette forløb skal I i klassen diskutere følgende

  • Hvorfor er det er vigtigt, at man er opmærksom på repræsentativitet, når man vælger træningsdata til maskinlæring.?
  • Hvilke situationer kan opstå, hvis man ignorerer krav om repræsentativitet?
  • Hvad er, I jeres øjne, fordele og ulemper ved at bruge Pivot-tabeller, når man arbejder med meget store datasæt?​

Tak for denne gang!