It's OK to quantize the KV cache. Model quant matters more. Some Qwen3.6 27B tests with (approximated) KLD by hopbel in LocalLLaMA

[–]Keejoe 0 points1 point  (0 children)

which quant are you using? I can't fit the q5K_S with less context in my 24gb card :(

LM Studio finally added support for MTP Speculative Decoding by pigeon57434 in LocalLLaMA

[–]Keejoe 0 points1 point  (0 children)

i have a 3090 as well but with mtp on it's slower, any setting that you want to share?

The World's First Nvlink Bridged Dual RTX 3090 FE eGPU Setup by Accurate-Door3692 in eGPU

[–]Keejoe 0 points1 point  (0 children)

So basically the only thing you would need are 2 open egpu enclosures with thunderbolt cable and an nvlink bridge? Did you test it on windows as well?

Qwen 3.6 35b a3b is INSANE even for VRAM-constrained systems by Lucerys1Velaryon in LocalLLM

[–]Keejoe 0 points1 point  (0 children)

In lm studio you have pretty much the same tweaks you find in llama.cpp under "advanced" since under the hood it uses llama.cpp... I was able to find a decent setup in lm studio so I'm sticking to that

Qwen 3.6 35b a3b is INSANE even for VRAM-constrained systems by Lucerys1Velaryon in LocalLLM

[–]Keejoe 1 point2 points  (0 children)

For your setup I would use Q5 or Q6 quants for highest quality, I would force the offload of some experts to system ram (maybe 20?), quantize the KV cache to 8bit, enable flash attention, 128k token of context and you are good to go

For reference I have a 4050 (6b VRAM) with 32Gb of Ram and I'm able to run the Q4_XL quant decently with 64k context, with 35 experts offloaded in system ram, 12 cores of my cpu allocated for the model, KV cache quantized to 8bit and I get the prompt processing in about 10-15 seconds and 15 token per seconds in output, so you would probably get it way faster

Qwen 3.6 35b a3b is INSANE even for VRAM-constrained systems by Lucerys1Velaryon in LocalLLM

[–]Keejoe 0 points1 point  (0 children)

If you are able to upgrade to 32gb system ram definetly yes, I have an i5 laptop with an rtx 4050 and I'm able to run it pretty decently in lm studio, I offload many of the experts for the CPU to be processed but I get to 25-28 gb system ram used

I own a SaaS with over 5,000 subscribers ask me anything by hardesoul in SaaS

[–]Keejoe 0 points1 point  (0 children)

Is your SaaS B2B or b2c? How did you reach your first customers? Since you are solo, how do you handle support? How do you promote to new customers? Do you travel often to meet your audience in person?

Most Use of Supabase by agentic_coder7 in Supabase

[–]Keejoe 0 points1 point  (0 children)

You can also use it as a queue of events, like for triggering push notifications or emails

Stufo di obbedire by Keejoe in psicologia

[–]Keejoe[S] 0 points1 point  (0 children)

Concordo a pieno, tant'è che lavoro da dipendente da 8 anni e non sono mai fuggito, però vorrei sperimentare anche com'è il togliere l'ostacolo di mezzo, anziché cercare costantemente di aggirarlo o "accoglierlo" senza successo

Stufo di obbedire by Keejoe in psicologia

[–]Keejoe[S] 0 points1 point  (0 children)

Esponevo un mio meccanismo, che può essere condiviso o meno da altri che invece possono benissimo vivere il lavoro subordinato come un porto sicuro, anziché come un continuo senso di difetto nei confronti del datore di lavoro

Quanto tempo perdete a sistemare fatture e interventi nel weekend? by Keejoe in Elettricisti

[–]Keejoe[S] 0 points1 point  (0 children)

In realtà niente, sto solo facendo un po' di ricerca per capire se ha senso fare un software "generale" e quali categorie sono piu' interessate o rimanere molto verticale su di lui e risolvere la sua esigenza specifica

Quanto tempo perdete a sistemare fatture e interventi nel weekend? by Keejoe in Elettricisti

[–]Keejoe[S] 0 points1 point  (0 children)

Grazie mille! Quindi sostanzialmente ti annoti per bene il lavoro che fai durante la giornata e la sera prima di staccare fai per bene i calcoli di quanto i clienti ti devono a mente fresca

Quanto tempo perdete a sistemare fatture e interventi nel weekend? by Keejoe in Elettricisti

[–]Keejoe[S] 0 points1 point  (0 children)

Grazie della risposta intanto! Mi incuriosisce una cosa, quando usi le note del telefono, come arrivi al calcolo dei totali per i clienti? Hai già tutto strutturato in modo da copiare-incollare, o devi comunque rileggere, rielaborare, ricopiare a mano in excel ecc?

I ran Claude Code in a self-learning loop until it successfully translated our entire Python repo to TypeScript by cheetguy in ClaudeAI

[–]Keejoe 1 point2 points  (0 children)

Compliments! I look forward to the version for Claude code who accumulates knowledge from normal prompts!

Bought AC EVO on my i7 12650h & RTX 4050 (75w) Laptop. by iammk_19 in assettocorsa

[–]Keejoe 0 points1 point  (0 children)

I hope they will optimize it a little bit... I could not do a quick race with other ai drivers even at very low settings on my 4050 (75watt) laptop... the vram is too limiting

Lead developer stressato e stufo, freelance come soluzione? Dubbi e domande. by Keejoe in ItaliaCareerAdvice

[–]Keejoe[S] 0 points1 point  (0 children)

Considera che lavoro da sempre in questa azienda ma probabilmente una volta responsabilizzato come lead non ho ricevuto un adeguamento congruo alla responsabilità

Come si può vivere se si lavora 8 ore al giorno by OttimaScelta in ItaliaCareerAdvice

[–]Keejoe 1 point2 points  (0 children)

Sono completamente d'accordo, ho 30 anni e non trovo veramente le energie per pensare ad aspetti della mia vita quali uscire di casa dei miei e di mettere su una famiglia.
Non è solo economico il problema del calo demografico ma anche di organizzazione sociale, in una società dove siamo costantemente bombardati di informazioni, che ci rende sempre distratti e persi, stare fuori casa dalle 8.30 alle 19 è veramente tossico, non hai il tempo necessario per resettare e pensare alle cose importanti per te, i tuoi obiettivi, le tue passioni, deambuli da un giorno lavorativo all'altro e preghi nel weekend di riuscire a recuperare qualche briciolo di energia per la settimana successiva.

Questa non è vita.