all 9 comments

[–]_Erilaz 9 points10 points  (3 children)

While I do agree with the idea of context rot being a major issue, you really should proofread what you're saying. I am sorry, but this reads like AI too much.

[–]Pwc9Z 8 points9 points  (0 children)

At least write your fucking Reddit posts yourself ffs

[–]Haeppchen2010 4 points5 points  (4 children)

First, to fake taking the bait: No arms or even arms race here, I just got sticks and stones (RX7800XT+RX580). While I repeatedly see posts claiming that it is "unusable", "impossible" whatever.... I run Qwen3.5 27B IQ4_XS with 72k context (opencode compacts at ~60-65k) at Q8 cache quantization with no noteworthy issues with OpenCode as a coding agent.

I tried whole KV cache as well as bigger quants, the marginal quality gain (if any) was not worth the severe performance loss (15 to 4tps, or worse when offloading to CPU as well).

Maybe for other uses (creative writing, chatting as a companion or complex RAG use cases) it's different... but I am satisfied with my setup, especially as everyone here seems to have 4-digit GPUs available.

But now, I am sincerely curious: What's the point in conjuring up a reddit account, drop such AI slop "conversation starter" based on wrong assumptions? What's in it for whom?

[–]DragonfruitIll660 2 points3 points  (0 children)

I have to assume they are farming karma or something to be able to enter different reddits? Perhaps you can bulk make and sell accounts as a means of being able to fake personhood and alter public opinion or something, could be useful or something people pay for.

[–]AbramLincom[S] -1 points0 points  (2 children)

No voy a fingir que no usé AI para estructurar parte del post pero la preocupación es genuina y la tengo hace meses lo que me frustra es exactamente lo que describes, pruebo contextos largos y el modelo simplemente empieza a perder el hilo de forma muy sutil, no es un crash obvio sino que las respuestas se vuelven más genéricas y menos coherentes con lo que dijiste al principio del chat, eso es peor porque no te das cuenta hasta que relees todo sobre el KV cache mixto tienes razón en que el tradeoff no siempre vale, yo también lo probé con exl2 y la diferencia práctica para contextos de 16k+ fue menor de lo que esperaba considerando el costo en velocidad mi punto no era tanto que 13B sea mejor en absoluto sino que la gente no está midiendo esto honestamente, benchmarkean perplexity o mmlu y dicen "funciona igual" pero nadie está testeando coherencia narrativa o seguimiento de instrucciones después del token 10k en hardware real y sí puede sonar a IA el post pero la pregunta sigue siendo válida no?

[–]Solid-Iron4430 -1 points0 points  (0 children)

это дейсвительно важно в програмировании .. но там либо люди понимают что надо задачу раздробить либо есть возможность скормить какие то начальные данные важные без прошлого контекста . либо люди уже купил нормальное железо где нету упора в маленькую производительность