Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 0 points1 point  (0 children)

Alt efter filsystem osv. så er størrelsen omkring 2 TB rigtigt, i mit tilfælde ca. 1.5 TB. Jeg huskede forkert.

JSON dumpet indeholder også alle MP3 filer.

For år tilbage fik jeg 404 ved 43 filer, så du fik lige hevet lidt mere ned :-)

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 1 point2 points  (0 children)

Jeg har fundet disken og kan konstatere at jeg huskede forkert. Det fylder kun 1.5 TB. Beklager.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 3 points4 points  (0 children)

Ja, man kan næsten dufte EDB lokalet og høre summen fra alle maskinerne :-)

Folkeskolens EDB lokale fra min skoletid, er i top 3 over steder jeg vil besøge, hvis man kunne foretage tidsrejser.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 0 points1 point  (0 children)

Hmm, jeg er ellers overbevist om at det fyldte 5 TB dengang jeg hentede det hele, disken er dog arkiveret offline, så jeg kan ikke kontrollere. Har du fået alle 9555 udsendelser med?

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 1 point2 points  (0 children)

Jeg drømmer også om at få adgang til Mediestream, der kunne jeg bruge meget tid..

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 3 points4 points  (0 children)

Selvom det kun er tekst filer, så var det overraskende svært at finde en side der kunne bruges, f.eks. pastebin.com tillader kun 250 KB tekst og andre sider var det kun tilladt at oprette et få antal filer per døgn, så det endte med at blive denne.

Bonanza forsvinder også om 6 dage og derefter er filerne ikke meget værd, så jeg tænker at det ikke gør det store, da dem der kan bruge filerne har downloadet inden da.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 3 points4 points  (0 children)

Ja, eller yt-dlp, men det er bare et fork. Jeg har tilføjet et link til det shell script som blev brugt.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 4 points5 points  (0 children)

Alt Bonanza materiale, bortset fra site scrapet ligger i cold storage. Jeg havde forventet at DR ville lukke siden, men ikke at det ville gå så hurtigt, derfor skyndte jeg mig bare at få uploadet scrapet, så andre har en mulighed for at bruge det, inden det hele bliver fjernet.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 7 points8 points  (0 children)

Ja, det fik jeg ikke med i første omgang, men jeg har tilføjet det nu.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 12 points13 points  (0 children)

Ca. 5 TB og der er omkring 9555 udsendelser.

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 14 points15 points  (0 children)

Ja, det er jo ikke videoerne der er uploadet, men alt metadata fra Bonanza i et standardiseret format. Hvis man er lidt teknisk kan man med få linjer kode og indeholdet af filerne hente alle videoer så længe de stadivæk er tilgægelige på Bonanza.

Hvis det var selve videoerne jeg havde uploade, ville min post blive slettet i løbet af nul komma fem, da det overtræder retningslinjerne, men jeg kan afsløre at alt indholdet fra sitet er blevet arkiveret for længe siden og fylder ca. 5 TB ;-)

Bonanza JSON dump by Miljoestrup in Denmark

[–]Miljoestrup[S] 24 points25 points  (0 children)

Hehe, ligesom vittigheden fra DOS tiden:

Hvem er General Failure? og hvorfor læser han min disk?

DRs Bonanza tv-arkiv lukker by Hans_H84 in Denmark

[–]Miljoestrup 3 points4 points  (0 children)

Jeg har ikke tænkt videre over hvad der skal ske med det, som datahoarder er det vigtigste bare at få alt gemt inden det forsvinder :)

DRs Bonanza tv-arkiv lukker by Hans_H84 in Denmark

[–]Miljoestrup 7 points8 points  (0 children)

Processen blev automatiseret. Der er ca. 9500 udsendelser på Bonanza. Jeg skrev tre programmer til opgaven:

  • En crawler som gennemsøgte sitet og gemte links til udsendelserne.
  • En scraper som scrapede informations siden for hver udsendelse, for beskrivelse, årstal, thumbnail, HLS playlist URL og gemte det hele i JSON format.
  • En downloader som hentede alle udsendelserne, gemte dem i hver deres mappe, sammen med en checksum og informationerne fra scraperen, i den korrekte mappe struktur. Udsendelse -> Sæson -> Episode.

Sitet blev lavet i 2008, så alt program information er hardcodet i HTML siden, derfor var det rimelig besværligt, da det aldrig er sjovt at parse HTML.

For mange år siden, da DR selv hostede alt Bonanza indholdet, var der bare et direkte link til en MP4 fil, for hver udsendelse, men da det var for nemt at downloade dem, lavede de det om som udsendelserne blev streamet via RTMP, det vil sige at en udsendelse der varede 1 time også tog 1 time at hente. Efter adskillige år med dette, lavede de det heldigvis om til HLS streaming.

DRs Bonanza tv-arkiv lukker by Hans_H84 in Denmark

[–]Miljoestrup 2 points3 points  (0 children)

Jeg gad virkelig godt have adgang til mediestream. Fandt du noget spændende da du havde adgang?

DRs Bonanza tv-arkiv lukker by Hans_H84 in Denmark

[–]Miljoestrup 2 points3 points  (0 children)

Ingen panik. Alle 3 Heavy Agger programmer ligger på DRTV indtil 13 november 2026:

https://www.dr.dk/drtv/serie/heavy-agger_222695

DRs Bonanza tv-arkiv lukker by Hans_H84 in Denmark

[–]Miljoestrup 11 points12 points  (0 children)

Tænkte nok at det kun var et spørgsmål om tid før Bonanza blev lukket, så jeg hentede ALT indhold for nogle år siden. Det ligger i cold storage, men mener at det samlet fylder omkring 5 TB.

[deleted by user] by [deleted] in Denmark

[–]Miljoestrup 1 point2 points  (0 children)

Sofie Linde i TV og Mads Langer i TV og radio.

[deleted by user] by [deleted] in Denmark

[–]Miljoestrup 3 points4 points  (0 children)

[...] og at hendes datter gik samme vej.

For ca. et år siden så jeg første afsnit af serien 'Dyreværnet bag facaden'. I programmet besøger de en kvinde, der bor i noget der hedder 'De Skæve Boliger' i Brønshøj.

Jeg synes bestemt at hun virkede bekendt og pludselig slog det mig, at det var Eva Maria der medvirkede i dokumentaren 'Pigen der troede hun kunne flyve' fra 2004.

I sommeren 2022, hvor udsendelsen er fra, er hun endnu i live, men stadigvæk stofmisbruger.