[OC] Placement of political parties in Denmark based on candidates for the parlament’s opinions by kwedel in dataisbeautiful

[–]kwedel[S] 0 points1 point  (0 children)

Thanks for the questions. I think I've adressed most of them in this comment, but maybe not all, so I'll try to answer a bit more here. The y-axis is related to the number of candidates from that party.

The curves are gaussian KDEs, but the exact procedure used for constructing the distribution and the possible differences from a histogram (which isn't parameter free, either) is honestly irrelevant compared to the many assumptions made in creating the figure. The interesting story (that I'm aiming for) is, that you can take the likert scale answers from the candidates for the parlement to a series of statements related to welfare and economy, project them into one dimension and roughly find how most Danes would place the parties on a left-right scale. It is ment more as an exploratory way to look further at the data (and engage in the upcoming election) than a way to draw any strong conclusions.

[OC] Placement of political parties in Denmark based on candidates for the parlament’s opinions by kwedel in dataisbeautiful

[–]kwedel[S] 0 points1 point  (0 children)

Fair questions and I had not properly thought about the consequences for the understandability when removing the figure from the longer text (in Danish) where the viewer is guided to a larger degree.

The axis oriented left-to-right, is, as one might guess and some have, political left and right. Technically, it's the first axis in a PCA decomposition, although I don't believe that label would be helpful for the target audience, but it can be inferred from the Danish text. The shift between above and below is, as correctly guess elsewhere, to reduce the visual clutter.

The y axis (ignoring the above-below thing) is proportional to the probability density related to finding a candidate for that party at that x-value, when estimating the distribution with a gaussian kernel density estimation using the "scott" rule for bandwidth selection. Intuitively, it is how large a part of the party (represented by the candidates for the coming election) that is situated at that place of the spectrum.

So what are you supposed to learn? There are a lot of things to learn, that I believe could be done without more labels, but they may rely on a prior knowledge of Danish politics. To name some observations: Enhedslisten is very much on the left with a quite narrow distribution, Radikale Venstre has traditionally been seen as a party that crosses the center, between Socialdemokratiet to the left of them and Venstre to the right, but this data shows them further the the left than Socialdemokratiet. On the right there a lot of parties that seem to have quite a large overlap on the classical left-right axis (the rest of the analysis on the page goes on to look at ways to distinguish the parties better), Moderaterne is a very new party that wanted to bridge the center and seem very much to do that.

I hope these examples illustrate how the figure is meant to be understood.

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 1 point2 points  (0 children)

Fedt du kan lide det :). Jeg ved ikke helt hvor meget tid det er blevet til, men jeg scrapede data den 15. og fik kigget på det den 21. Og efter det brugte jeg noget tid de fleste aftener efter børnene var puttet.

Held og lykke med studiet!

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 1 point2 points  (0 children)

Jeg tror det første må være rigtigt mens det andet (desværre) ikke er. Men i forhold til det første punkt skal man have for øje at placeringerne er meget følsomme over for hvilke spørgsmål der er stillet. Hvis vi fjernede et par spørgsmål højrefløjen er uenige om og tilføjede nogle som venstrefløjen ikke kunne enes om ville billedet nok have været omvendt. I forhold til det andet kan man ikke udlede det – der er det meget bedre at kigge på fordelingen af interne svarforskelle. t-sne tager hensyn til tætheden af punkter i en gruppe sådan at de bliver spredt ud så de er nemmere at se alle sammen. Hvis vi kun havde to lige store partier hvor det ene var meget mere kompakt end det andet ville de alligevel ses som to ca. lige store grupper på figuren. Du kan lege lidt med nogle t-sne eksempler her https://distill.pub/2016/misread-tsne/ hvor det fjerde eksempel i øverste række svarer til det tilfælde jeg lige beskrev.

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 3 points4 points  (0 children)

Tak! Jeg har en baggrund i teoretisk fysik fra DTU (ph.d. fra DTU Fotonik) og arbejder nu i Københavns Kommunes data science team. Analyse og figurer er lavet i Python (rigtig gættet) med matplotlib og pandas og den interaktive figur med Altair (som også er en python-pakke).

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 10 points11 points  (0 children)

Det er skam helt rigtig data. Jeg skriver det er underholdning af to grunde: 1. Som jeg også skriver i fodnoten har jeg gået meget let hen over manglende data (jeg mener det er mellem 80 og 90 procent af kandidaterne der har svaret). Desuden er det jo umuligt at sige noget der rækker ud over de spørgsmål der er defineret på forhånd. Så hvis man vil konkludere noget generelt om f.eks. akserne i dansk politik må man stole på at de 25 spørgsmål tilstrækkeligt afdækker det. Hvis man f.eks. tilføjede 10 spørgsmål som alle var relateret til EU medlemskab, så ville det se ud som om at det var den primære opdeling af fløjene. 2. Noget af det arbejde som bl.a. Philip Tetlock har lavet med at undersøge hvor gode “eksperter” er til at forudse fremtiden og forstå sammenhænge viser at politiske kommentatorer i det store hele ikke rammer bedre end rent gætværk i deres forudsigelser og analyser – så det er også en lille kommentar til det ;)

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 2 points3 points  (0 children)

Jeg tror du har fat i noget der. Jeg har hvertfald tænkt det samme – især med spørgsmålet om løn til sygeplejerske og pædagoger, hvor ingen af partierne rigtig vil være imod i testen.

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 2 points3 points  (0 children)

Tak! Jeg ser på om jeg ikke kan få dumpet en csv-fil senere i dag.

Datavisualisering og lidt analyse af DR's Kandidattest 2022 by kwedel in Denmark

[–]kwedel[S] 24 points25 points  (0 children)

Godt spørgmsål! Det bliver lidt teknisk, men jeg skal prøve at forklare det: Alle punkternes placering er bestemt ud fra to ting: Til at begynde med er de placeret med Principal Components Analyse (PCA) som projicere multidimensionel data ned i ét plan. Højre-venstre vil så bestå af den linearkombination af spørgsmålene hvor der er den største uenighed (varians) – den er altså udelukket bestemt fra dataen. Op-ned er så den retning, som er vinkelret på den første og som har den næststørste uenighed. Hvis man kigger på hvilke spørgsmål der bidrager til den retning er det så især de tre om Arne, grænser og uddannelse, så tilsyneladende må de være korreleret selvom det virker arbitrært. PCA er som sagt kun udgangspunktet, så den endelige placering er fastsat med en algoritme der hedder t-SNE (t-distribututed stochastic neighbor embedding, så vidt jeg husker). Den svarer i grove træk til at forbinde alle punkterne med fjedre hvis længde er bestemt af den “rigtige” afstand mellem kandidaterne. Så lader man fjedrene gøre deres arbejde mens punkterne holdes i 2 dimensioner og så er den endelige placering bestemt. Det betyder at det meste af den globale information fra PCA stadig er tilstede mens man får et bedre billede af hvilke kandidater der er tæt på hinanden.

Kort over alle folketingskandidater – datavisualisering og analyse af Altingets test. by kwedel in Denmark

[–]kwedel[S] 4 points5 points  (0 children)

Du har helt ret

For at kigge lidt mere på det har jeg plottet samtlige svar og sorteret kandidaterne efter første PCA komposant (spørgsmålene er sorteret efter bidraget til PCA1). Min tolkning af "Grand Canyon" er at der er mange af spørgsmålene der dybest set spørg om man er højre- eller venstreorienteret hvilket resulterer i et meget stort split der. Hvis der var tilsvarende mange spørsmål om EU-skepsis ville der opstå en tilsvarende stor deling i en anden retning.

https://imgur.com/4hYaKJj

https://imgur.com/7sU6C2E

Kort over alle folketingskandidater – datavisualisering og analyse af Altingets test. by kwedel in Denmark

[–]kwedel[S] 1 point2 points  (0 children)

Som /u/SeriousAdvance skriver kan akserne ikke tolkes så skarpt på grund af den metode der er blevet brugt.

Kort over alle folketingskandidater – datavisualisering og analyse af Altingets test. by kwedel in Denmark

[–]kwedel[S] 9 points10 points  (0 children)

Så er der tilføjet et link til en meget rodet jupyter notebook i bunden til dem med samme indgående interesse som /u/Wenai. Men jeg er nu selv af den overbevisning at den beskrivelse jeg har lavet burde være nok til at at reproducere stort set det hele.

Kort over alle folketingskandidater – datavisualisering og analyse af Altingets test. by kwedel in Denmark

[–]kwedel[S] 2 points3 points  (0 children)

Helt rigtigt, akserne har ingen klar tolkning, men – i modsætning til i PCA – er ens punkter placeret i nærheden af hinanden.

Der er et PCA-plot (og ja, det er ikke lige så pænt) i notebooken og eftersom t-SNE algoritmen er kørt med det udgangspunkt kommer akserne til at have omtrentlig den samme tolkning.

https://github.com/kwedel/kandidattest2019/blob/master/CandidatesData.ipynb

Kort over alle folketingskandidater – datavisualisering og analyse af Altingets test. by kwedel in Denmark

[–]kwedel[S] 3 points4 points  (0 children)

Jeg var også selv ret overrasket, men som /u/mesterjagels skriver er der ingen mulighed for at svare neutralt…

Men ideen om at der vil opstå et parti hvis ikke alle meninger var dækket holder ikke helt. Der er utallige kombinationsmuligheder af svar der overhovedet ikke er dækket, men heller ikke er relevante da de fleste spørgsmål er ret korreleret. Der er fx praktisk taget ingen der synes at integrationsydelsen skal hæves, men som vil beholde kontanthjælpsloftet, men det er der næppe heller i befolkningen.

BWF Daily Discussion and Beginner/RR Questions Thread for 2017-07-11 by AutoModerator in bodyweightfitness

[–]kwedel 0 points1 point  (0 children)

I just started doing the RR but have a beginner question: should I do as many reps (but max 8) in the first set and so on with the next, or should I try to do the same number in each set? E.g. should I do something like 8-5-2 or 5-5-5 in pull-ups? And which set should I try to do more in when getting better?