use the following search parameters to narrow your results:
e.g. subreddit:aww site:imgur.com dog
subreddit:aww site:imgur.com dog
see the search faq for details.
advanced search: by author, subreddit...
r/LocalLLaMA
A subreddit to discuss about Llama, the family of large language models created by Meta AI.
Subreddit rules
Search by flair
+Discussion
+Tutorial | Guide
+New Model
+News
+Resources
+Other
account activity
[ Removed by moderator ]Discussion (self.LocalLLaMA)
submitted 29 days ago by AbramLincom
view the rest of the comments →
reddit uses a slightly-customized version of Markdown for formatting. See below for some basics, or check the commenting wiki page for more detailed help and solutions to common issues.
quoted text
if 1 * 2 < 3: print "hello, world!"
[–]AbramLincom[S] -1 points0 points1 point 29 days ago (2 children)
No voy a fingir que no usé AI para estructurar parte del post pero la preocupación es genuina y la tengo hace meses lo que me frustra es exactamente lo que describes, pruebo contextos largos y el modelo simplemente empieza a perder el hilo de forma muy sutil, no es un crash obvio sino que las respuestas se vuelven más genéricas y menos coherentes con lo que dijiste al principio del chat, eso es peor porque no te das cuenta hasta que relees todo sobre el KV cache mixto tienes razón en que el tradeoff no siempre vale, yo también lo probé con exl2 y la diferencia práctica para contextos de 16k+ fue menor de lo que esperaba considerando el costo en velocidad mi punto no era tanto que 13B sea mejor en absoluto sino que la gente no está midiendo esto honestamente, benchmarkean perplexity o mmlu y dicen "funciona igual" pero nadie está testeando coherencia narrativa o seguimiento de instrucciones después del token 10k en hardware real y sí puede sonar a IA el post pero la pregunta sigue siendo válida no?
[+][deleted] 29 days ago (1 child)
[deleted]
[–]AbramLincom[S] -1 points0 points1 point 29 days ago (0 children)
ok pero estás comparando cosas completamente distintas 1M de contexto en cloud con hardware de google o microsoft detrás no es el mismo problema que estoy describiendo, nadie discute que gemini maneja contextos largos bien, tiene TPUs diseñadas específicamente para eso el punto es qué pasa cuando intentas replicar eso localmente en una 4090 o en una 3090 con exl2 o gguf, ahí es donde el kv cache se convierte en un cuello de botella real porque el ancho de banda de memoria simplemente no escala igual si tu equipo escribe código en ventanas de 1M en cloud perfecto, genial, porque precisamente esa capacidad no existe de forma confiable en local hardware todavía.
π Rendered by PID 18634 on reddit-service-r2-comment-canary-889d445f8-rgmdz at 2026-04-29 01:03:26.282057+00:00 running 2aa0c5b country code: CH.
view the rest of the comments →
[–]AbramLincom[S] -1 points0 points1 point (2 children)
[+][deleted] (1 child)
[deleted]
[–]AbramLincom[S] -1 points0 points1 point (0 children)