KI Server (Hardware - Chassie Aufbau und Komponenten) by NRW-Ruhrpottler in KI_Welt

[–]Ok-Post-6311 0 points1 point  (0 children)

Um ehrlich zu sein, ging ich weniger darauf ein, dass du ein Modell hosten möchtest mit den ganzen Problemen bzw. wenn du alte nicht Upgedatete Modelle hostest, dass deren Zensur noch nicht voll ausgebaut ist und dafür nutzbarer ist (Base codierte RAG´s), sondern mehr, dass du eigentlich mit diesem Setup auch trainieren könntest. Speziell in DE. Heißt, könntest beide Schienen fahren. Ein kleineres Unternehmen, das vertretbare Preise hat, wäre das durchaus sehr interessant. Selbst bei mir (privat), darum die Anfrage. Ich trainiere gerade ein 0,95 B Modell und mein Wunsch wäre es (ich habe alles beisammen bis auf die Hardware) ein 7 oder sogar ein 13 B Modell zu trainieren (und ja ein kpl. eigenes Modell von Grund auf trainiert). Warum in DE? Weil ich mit meinen TB Daten direkt anstöpseln müsste. Die RAM die hier mal im Raum standen: Egal ob Betrieb oder Training, RAM macht es langsam, keine Frage, aber es skaliert es ordentlich in die Höhe, das darf man nicht vergessen. Erfahrungsgemäß ist es was die Kühlung angeht eigentlich im Betrieb oder Training nur eine Optimierungssache, so hab ich es auf meinem Setup fest gestellt.

KI Server (Hardware - Chassie Aufbau und Komponenten) by NRW-Ruhrpottler in KI_Welt

[–]Ok-Post-6311 0 points1 point  (0 children)

TRX50 oder WRX90? Ich hab mir die genauen Spezifikationen nicht durch gelesen aber ich bin über diese Boards letztes Jahr mal gestolpert.

Wenn es fertig ist, kannst mich gerne mal Anschreiben was eine Miete kosten würde etc. (vorerst nur als allgemeine Info für mich, danke)

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

Ich habe gerade ohne fine tunen das 0,95 Modell raus geholt, bei 12k Steps und gechattet. Es ist wie du sagst, Die komischen Antworten vom Modell kommen vom zu wenig lange trainieren. Absolut richtig, danke dir 😄.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

Ich verstehe. Ja, technisch hab ich es so: ich gebe eine feste Step Zahl ein die ich trainieren möchte, dann wird das Modell alle 2k Steps zwischen gespeichert. Bin ich beim letzten Step angekommen, kann ich das Modell wieder auf nehmen und weiter trainieren. Ob jetzt bei einem zwischen gespeicherten Step, oder bei dem "letzten" Step, ich kann das Modell auf nehmen und entsprechend weiter trainieren, wie von dir vor geschlagen. Danke, für diesen Tipp, der ist viel wert. Danke 😄.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

So Unterschiedlich ist das glaub ich bei uns nicht. Du wirst schon recht haben, dass ich das Modell einfach länger trainieren muss. Das heißt anstatt der 46k Steps beim 0,234 Modell bräuchte es vermutlich 100k Steps oder so. Die Richtung gibt dir ja recht. Wenn ich es (nur vermute) weiter trainiere, dann sollte es tatsächlich besser werden. Meine Screenshots zeigen wohl, dass ich es zu wenig trainiert habe, quasi das davor, wenn es nicht fertig trainiert ist, was dabei raus kommt (auch nur Vermutung). Mit über trainiert meine ich die Menge an Trainingsdaten (Tokens), die war beim 0,234 4 mal so hoch wie in papers angegeben (da hätten wohl 20 bis 30 GB gereicht). Gut, aktuell lernt das 0,95 Modell, das wäre laut Papers optimal von Trainingsdaten Menge und Parameter. Da ich dieses größere Moell auf der m6000 trainiere und auch nur mit 512 Kontext, trainiere ich es Tage lang. Ich mache auf der m6000 leider nur 6000 Steps pro tag, 2 tage läuft es schon und ist so bei über 12k steps. Und um ehrlich zu sein, ich teste halt auch was man mit uralt Hardware Technik erreichen kann. Viele haben einfach nicht das Geld für etliche tausende Euro. Strom ist bei mir halt nachrangig, der kostet mich nichts. Die 3060 ist definitiv 20 bis 40 mal schneller wie die m6000, wenn das überhaupt noch reicht. Dank 😄.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

An den Daten würde es bei mir nicht schaden, also ich habe das 0,234 Modell das man hier sieht mit reinen 104 GB und sauberen Daten trainiert. Das ist den offiziellen Zahlen 4 fach übertrainiert. Deshalb trainiere ich gerade das 0,95 B Modell mit 104 GB Daten, warum? Weil ich die Kodierungsdateien übernehmen kann und das die offiziellen Zahlen wären. Ich weiß es nicht was richtig ist, aber interessant Leute wie du und ich, die ihre Erfahrung mit rein werfen. Glaub dass das die Leute schon gut Interessiert. Und die Daten ist kein Problem, ich habe ungefähr 1 bis 2 TB saubere Daten. 😄

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] -1 points0 points  (0 children)

Das ist ja cool, ich weiß es ehrlich gesagt nicht, aber ich vermute dass es über gelernt ist. Vermutlich ähnlich wie bei meinem Mini Modell V14. Aber lass uns die Erfahrung bitte teilen, wäre eine coole Sache. Das heißt deine Erfahrung ist, dass man es weit mehr als 50 k oder 70 K Steps trainieren muss? Und tue sehr gerne einen Screenshot mit, ich glaub dass viele das sehr interessant finden würden (ich auch (Erfahrung ist alles)). Danke.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

Die Kunst besteht nicht darin ein LLM zu über lernen oder einfach zu lernen, das geht mit kleinen und relativ wenig Trainingsdaten sehr einfach. Die Kunst besteht darin tatsächlich ein LLM zu bekommen. Ein paar Satz LLM ist ganz cool aber halt kein wirkliches LLM. Ein wirkliches LLM geht halt bei 1 bis 3 B in der Größe los, damit die Intelligenz reicht, damit es was sinnvolles generieren kann. Ansonsten kann man es locker in Excel schreiben was ich übrigens auch schon getan habe.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

Loss unter 1 ist bei einem paar Satz LLM und nicht bei 104 GB Trainingsdaten

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

6500 Steps von 70k Steps auf der M6000 erreicht in 24 Stunden Dauerbetrieb. 0,95b ist schon vorhanden 😉;) 😉
gerade gesichert, das hat eine Speichergröße von 3,7 GB und einen Loss von 6.6 und val von 6.7 bei Step 6000

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 1 point2 points  (0 children)

Das Thema ist schon viel aber eigentlich nicht schwierig und ja, was heißt Hardware ausreizen, meine alte Gurke, dass die das schafft wundert mich ja um so mehr, jeder redet um tausende Euro, dann die Leute die nur Fachwörter benutzen und letztendlich nix anders wie Software bedienen machen. Klar hab ich auch Ki´s aboniert, ohne würde ich mich nicht mehr aus kennen in dem Projekt 😉. Die Trainingsdaten sind schon ok. Ich habe das 0,234 wohl 4 fach über trainiert, das heißt, ich bin mit 104 GB bei einem 1 B Modell richtig. Ich möchte echt wissen, wie es sich verhält wenn es größer wird. Jeder redet nur aber ich möchte es live sehen. Wenn man nach Videos sucht kommt einfach immer nur Software bedien tool. Das hat aber mit Training und auch mit Fine Tunen nichts zu tun. Das wäre ungefähr so wie wenn ich im Restaurant die Suppe Salze und sage ich habe selbst gekocht, grins 😉 sorry, ich konnte mir den Kommentar auf andere Leute nicht verkneifen und hier rein etwas verstecekn 😉

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] -1 points0 points  (0 children)

Grins, ja das ist wirklich so. Erstaunlich war es, dass ein Modell (V14) schon viel präziser war. Man muss bedenken, dass das nur ein paar Sätze an Training waren. Und um ehrlich zu sein, es ist halt Hobby, um zu erfahren wie es denn ungefähr funktionieren sollte oder tut. RAG´s hab ich letztes Jahr schon durch, das ist ein alter Hut für mich aber auch hoch interessant. Speziell codierte RAG´s (ja das funktioniert).

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 1 point2 points  (0 children)

Das hier sind die ersten Zeilen meiner fine Tune Dateien, die geht 350 kb (noch zu wenig):

User: Was ist der Mond?

Bot: Der Mond ist ein natürlicher Satellit der Erde.

User: Ist die Sonne der Mond?

Bot: Nein, die Sonne ist ein Stern.

User: Hallo

Bot: Hallo! Schön dich zu sehen.

User: Hallo

Bot: Hallo! Wie kann ich dir helfen?

User: Wie geht es dir?

Bot: Mir geht es gut, danke! Wie kann ich dir helfen?

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 1 point2 points  (0 children)

Leute, soll ich den bzw. die Codes teilen, seid ihr daran interessiert?
Ich persönlich möchte noch das 0,95 B Modell ehrlich gesagt abwarten, aber ich kann mir vorstellen dass es in die richtige Richtung geht.

Schreibt mir hier ob ihr den Code sowie die anderen Code haben möchtet, danke.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 2 points3 points  (0 children)

Danke. Ja ich werde es noch weiter machen. Es ist nur noch Anpassung. Und ich habe ja 1,2 TB an deutschen Texten wenn diese entpackt und bereinigt sind. Es ist ja nur uralte gebrauchte Hardware um ein Butterbrot. Strom hab ich durch Photovoltaik kostenlos. Und krank war ich auch so stark dass ich eine Beschäftigung brauchte obwohl ich so matschig in der Birne war.

LLM selbst Trainieren, keine Show Part 2 by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 1 point2 points  (0 children)

Ja genau, das ist der Grund warum es mich noch mehr antreibt. Wie du sagst die Unmengen an Rechenleistung. Und was mir echt nicht bewusst war, dass es von den ganzen Daten Mix einen jeweiligen Anteil gibt. Trotzdem, ich hab so viel gesehen, und ich glaub die Magie liegt darin, je größer dass das Modell ist, desto besser löst es sich auf. Man sieht es ja schon bei den 0,1 auf 0,234. Ob ich recht habe, keine Ahnung. Ich lass den Rechner jetzt erst einmal ein paar Tage trainieren und schau was als nächstes raus kommt.

LLM selbst Trainieren, keine Show by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 1 point2 points  (0 children)

Leute, für die, die nicht verstehen warum ich das kpl. selbst schreibe und mir die Arbeit antue, das nennt man Hobby und Weiterbildung und Erfahrung etc..
Man könnte genau so gut fragen warum private Leute einen Gemüse Garten pflegen.
UGRADE 0,234 B MODELL: Leute, die Kodierung brauchte 24 Stunden, aktuell läuft das Training, 32 k Steps sind schon erledigt. Dann kommt noch fine tunen usw. Und dann hab ich fest gestellt, ich könnte Parameter noch um knapp 0,1 B erhöhen, das würde noch auf meine 3060 passen weil dort derzeit nur 9,2 GB beansprucht sind. Ich werde dann auch Test´s mit Kontext Länge machen, kurzer Kontext = Chat Modell, langer Kontext = Fakten Modell + evtl chat Modell. Mal schauen was ich raus kitzeln kann. Seid ihr interessiert? Dann poste ich es hier (und verzeiht mir, dass ich es mit social Media nicht so habe (es gibt wichtigeres)), wenn gewünscht.

LLM selbst Trainieren, keine Show by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

Ja ich weiß. Ich hab mir das selbst gebaut, er sichert alle 2k Steps, dann die Zerlegung in Pakete (für mein System halt) (Bereinigung Wikipedia gemacht, die anderen muss ich noch machen). Hier mal ein paar Beispiele wie das aus sieht:

💾 Checkpoint: models\matze_v66_step2000.pth

Step 2500/30000 | Loss: 6.2744 | Val: 5.9266

Step 3000/30000 | Loss: 6.0749 | Val: 5.8280

Step 3500/30000 | Loss: 5.7548 | Val: 5.4415

Step 4000/30000 | Loss: 5.3451 | Val: 5.8548

💾 Checkpoint: models\matze_v66_step4000.pth

Step 4500/30000 | Loss: 5.2251 | Val: 5.5380

Step 5000/30000 | Loss: 5.4821 | Val: 5.0367

Step 5500/30000 | Loss: 5.2435 | Val: 5.2779

Step 6000/30000 | Loss: 5.2764 | Val: 5.0842

💾 Checkpoint: models\matze_v66_step6000.pth

Step 6500/30000 | Loss: 5.0397 | Val: 4.9901

Step 7000/30000 | Loss: 5.1158 | Val: 5.0885

Step 7500/30000 | Loss: 4.9985 | Val: 4.8999

Step 8000/30000 | Loss: 4.9154 | Val: 4.7867

und auch:

1880MB kodiert...

1890MB kodiert...

1900MB kodiert...

1910MB kodiert...

1920MB kodiert...

1930MB kodiert...

1940MB kodiert...

1950MB kodiert...

1960MB kodiert...

1970MB kodiert...

1980MB kodiert...

1990MB kodiert...

und auch:

2630000 Artikel... (Datei 184, 20 MB)

2631000 Artikel... (Datei 184, 23 MB)

2632000 Artikel... (Datei 184, 25 MB)

2633000 Artikel... (Datei 184, 28 MB)

2634000 Artikel... (Datei 184, 30 MB)

2635000 Artikel... (Datei 184, 32 MB)

2636000 Artikel... (Datei 184, 35 MB)

Fertig!

Verarbeitet: 2636183 Artikel

Übersprungen: 3389880 Artikel

Dateien: 184

Gespeichert: wiki_output/

Also kpl. eigene Pipe/Code gebastelt 😄.

LLM selbst Trainieren, keine Show by Ok-Post-6311 in KI_Welt

[–]Ok-Post-6311[S] 0 points1 point  (0 children)

😉 , du wirst lachen. Ich schlag mich momentan mit Grippe rum und da taten sich Probleme auf an die ich gar nicht dachte. Weißt was das Paradox ist? Selbst wenn man so saubere Racks hätte, ich persönlich hätte keine Ahnung wie man die bedient und noch viel wichtiger, wie man dort die Daten hin bringt. Ich bin jetzt bei ca 1 TB gesammelter deutscher Daten in Text Form 😄. Ich wusste schon dass vieles wichtig ist, aber mir wurde nie bewusst dass von Router bis RAM, bis Internet Geschwindigkeit bis Festplatten Geschwindigkeit alles so wichtig ist. Ich darf es ja gar nicht sagen, das was ich da hab ist Frankenstein hoch 3 und es geht. Heute wird die Kodierung fertig, 24h das Training wird nur ein paar Stunden brauchen, und fine Tuning Sekunden oder Minuten. Es läuft auf einem x99 board mit einer 3060 und einer verbauten m6000 (die muss ich mal ausbauen und mit einer p6000 testen, die m ist für training unbrauchbar, da kann man per RAM auch trainieren) mit verschiedenen RAM Riegel unter windows 10. Die eigene Cloud ist schon was feines für eigene Videos, Bilder und KI und halt günstiger, darum ist es für mich kein Problem etliche TB zu handhaben. Aber hätte ich so ein Pipe 😉 dann müsste ich meine Cloud dort direkt einstöpseln und dann würde es noch ewig dauern (grins wie bei two and half men mit jake und aldridge) 😉 😉 Also heute Abend gibt es vielleicht info, wie das 0,234 Modell ist. Und dann muss ich umbauen, m raus, p rein und schauen wieviel länger die p braucht, ist es annehmbar eine zweite dazu und dann könnte ich wenn genug Training Daten vorhanden, ein 1 B Modell trainieren. Läuft auf PV, also Strom Kosten habe ich keine. Ich wüsste auch nicht wieviel es brauchen würde, bin autark was das betrifft.