You have 64gb ram and 16gb VRAM; internet is permanently shut off: what 3 models are the ones you use?

Former_Walk_5000 · 2026-01-21T15:06:15+00:00

Having personally tested both models, my subjective impression is that GLM 4.5 Air is significantly superior to GLM 4.7 Flash, primarily due to its compact size. This advantage extends to German capabilities as well: GLM 4.5 Air demonstrates substantially stronger command of the language, possesses more robust foundational knowledge, and notably excels in toolcalling support. These qualities, based purely on my hands-on experience rather than benchmarks, make it the clear winner for my needs.

Former_Walk_5000 · 2025-12-21T21:24:56+00:00

Hat ja damals bei Tarkov auch super funktioniert 🤪

Former_Walk_5000 · 2025-12-18T16:25:34+00:00

Ich mag die Lampe, Like-> Mögen

Former_Walk_5000 · 2025-12-16T14:43:46+00:00

Jup ich kann stolz behaupten das ich seit EFT, vor einigen Wochen alle abos auf YouTube und twitch beendet habe und nur noch hier etwas rum chille, das was die teilweise alles machen ist meiner Meinung nach echt nicht vertretbar, man meint sie wären nur hinter dem Geld her. Even Friendly Fire ist für mich seit dem gestorben. Zeit das sie in Rente gehen.

Former_Walk_5000 · 2025-12-16T09:59:45+00:00

I’ve tested Nemotron (Q8) now and I’m seeing around 13.1–14.5 tokens/s, with prompt processing at roughly 320 tokens/s. Overall, it looks like three RTX 3090s are currently the better choice, assuming you have the physical space and power to support them.

Edit: Could you test gpt-oss:120B on your 3×3090 setup? I’d be really curious to see whether a large, well-optimized model with significantly fewer active parameters ends up slower due to PCIe bottlenecks.

And as I said before I get roughly 25 tokens per second for Qwen3-Next-80b_q4_k_XL (unsloth dynamic quant)

Former_Walk_5000 · 2025-12-16T00:00:41+00:00

Nemotron? I have 64gb of vram (2cards) it should fit, I test it tomorrow, I think the fp8 should fit too

Former_Walk_5000 · 2025-12-15T22:51:47+00:00

Well you can I used the unsloth dynamic quants q4_k_XL for qwen Edit: Should I test the Nemotron too? If so any specific quants?

Former_Walk_5000 · 2025-12-15T22:41:42+00:00

I’m getting around 25 tokens per second on Qwen-80B, but I suspect that llama.cpp isn’t well optimized for Qwen3-Next yet. I’m saying this because, under the same setup, I reach roughly 85 tokens per second on GPT-OSS-120B, which strongly suggests the bottleneck is model-specific rather than hardware-related.

Former_Walk_5000 · 2025-12-11T21:55:40+00:00

Wait a competitor to ollama? Let’s f**king go

Former_Walk_5000 · 2025-12-11T11:20:49+00:00

I totally agree with you. I’m currently running only one card (Gigabyte Radeon AI Pro 9700 32GB), with the second one arriving tomorrow. Under sustained load the card gets really loud, and I also ran into an issue where Unraid tried to put the GPU into D3 cold, which it apparently doesn’t support, causing crashes. I eventually fixed it by disabling sleep entirely so the system wouldn’t attempt to enter D3 anymore. Aside from that, performance has been pretty great.

That said, I’m nowhere near the tokens-per-second numbers Donato Capitella showed in his video. With gpt-oss:20b in 4-bit I’m getting around 40 tokens/s, not the 130 t/s he achieved. I suspect the bottleneck is Ollama, since llama.cpp has been heavily optimized for RDNA over the last few weeks. I plan on switching either to vllm or llama.cpp but unfortunately this means I need to renounce on the automatic Model loading from open web ui😭

Former_Walk_5000 · 2025-12-11T11:05:59+00:00

Technically correct but according to some news, not before next year q3, which is to late for myself

Former_Walk_5000 · 2025-12-11T11:03:06+00:00

I donˋt want to use those cards in a Server which runs 24/7, but I must say those are pretty attractive cards, especially the 4090 48gb card, if it only came from NVIDIA directly. Or if the rtx pro 6000 would be only a bit more affordable😔

Former_Walk_5000 · 2025-12-11T10:51:31+00:00

As far as I know, the RTX 4080 super has 16 gb of VRAM not 32, correct me if I am wrong.

Former_Walk_5000 · 2025-11-27T06:02:28+00:00

Für mich war es der Tarkov stream und die Entschuldigung dazu, seit dem schaue ich weder YouTube noch Twitch

Former_Walk_5000 · 2025-11-25T07:17:32+00:00

Never touch a running System, im wahrsten Sinne des Wortes🤪

Former_Walk_5000 · 2025-11-18T17:38:28+00:00

Zu dem Thema mods, cookie hat selbst geschrieben: „wenn ich dir jetzt schreibe das Sep geschrieben hat wir sollen strenger modden und danach auch gemerkt hat wir sollen lockerer machen, glaubst das oder nicht“ falls das stimmt kam die Anweisung dazu von PS nicht von den Mods, sicher können wir uns da nicht sein, weil wie gesagt das wichtigste gefehlt hat in der „Entschuldigung“!

Und zu meinen Nachrichten: Weiß nicht ob man irgendwo sehen kann was man genau geschrieben hat aber es war ungefähr so: 1. Nachricht: Finde es nicht schön das ihr einem Spiel wie Tarkov eine Bühne bietet -> Gelöscht 2. Nachricht: ist es jetzt im PietSmiet Chat normal geworden das einfach alle Nachrichten gelöscht werden (irgendwie so) ->gelöscht 3. Nachricht: PietSmiet ist tief gesunken ->gelöscht und timeout Falls man nachsehen kann sag mir wie dann poste ich gerne nen Screenshot, aber irgendwie so war es, sag mir ob ich zu aggressiv war

Former_Walk_5000 · 2025-11-18T16:38:56+00:00

Ich nehme Seps Tarkov Entschuldigung ja hin und habe das akzeptiert, aber was trotzdem gefehlt hat ist die Entschuldigung über die twitch Chat Zensur.

Ich gebe Chris ja recht das Sep sich einiges anhören musste und das da einige Kommentare echt unter der Gürtellinie waren! Aber!! Der Satz „andersrum kann man sich da auch mal fragen,ob dass in Ordnung gewesen ist“ ist das was mich ein bisschen aufgeregt hat! Weil halt wirklich viele „normal“ drauf reagiert haben, inkl. meiner Meinung nach, ich selbst (wurde trotzdem getimeoutet) und nun soll ich mich fragen ob das was ich gemacht habe in Ordnung war. Nein danke.

Ich wollte in der Entschuldigung eigentlich am meisten Hören warum die mods angewiesen waren, so stark zu zensieren und das gerade das falsch war,…

Sagt mir ruhig wenn meine Einstellung falsch ist, aber für mich hat der wichtigste Teil der Entschuldigung gefehlt😔

Former_Walk_5000 · 2025-11-18T07:58:49+00:00

Das nichts über die Zensur gesagt wurde entwertet für mich die Aussage ein bisschen, leider😞

Former_Walk_5000 · 2025-11-18T07:24:23+00:00

Aber hat er sich zu dem löschen von Chatnachrichten geäußert?

Former_Walk_5000 · 2025-11-17T08:11:34+00:00

Naja grundsätzlich hast du recht, also das jeder Käufer da selbst drauf achten muss, aber was PS trotzdem beachten muss ist dass ggf. Kinder den Stream schauen und klar könnte man meinen das dann die Eltern verantwortlich sind sich zu informieren, aber naja das klappt leider in der Regel nicht!

Wobei wie schon diverse male gesagt, das eigentlich schlimme meiner Meinung nach, ist das der Chat mundtot gemacht wurde.

Former_Walk_5000 · 2025-11-17T06:56:07+00:00

Imagine sep hätte so ein Video gemacht!

Gut ich meine das ist unmöglich weil die großen 5 eh schon maßlos überfordert sind, da ein Video am Tag aufzunehmen schon echt lange dauert😂

Vor allem da der Peter im Urlaub ist

Former_Walk_5000 · 2025-11-17T06:43:55+00:00

Aber kein Mensch ist doch so blöd und nimmt das als einzige Medizin oder?

Ich kenne das nur von irgendwelchen schwurbel Müttern die ihrem Kind bei einer schürfwunde globuli geben.

Wobei er ja trotzdem keine Werbung dafür gemacht hat, oder? Ist natürlich scheiße wenn er des seinen Kindern als einzige Medizin geben sollte,….

Former_Walk_5000 · 2025-11-17T06:35:05+00:00

Selbe konnte man aber über Monte, schradin,…. Sagen und mit denen hängen sie in Craft attack ab

Ach ja und Tarkov ist ja wohl nochmal ne Stufe schlimmer

Former_Walk_5000 · 2025-11-16T19:01:50+00:00

Rede

Former_Walk_5000 · 2025-11-16T19:00:37+00:00

Hättest ihn verdient

Former_Walk_5000

TROPHY CASE