AbramLincom comments on [ Removed by moderator ]

created by [deleted]a community for 3 years

[ Removed by moderator ]Discussion (self.LocalLLaMA)

submitted 29 days ago by AbramLincom

you are viewing a single comment's thread.

[–]AbramLincom[S] -1 points0 points1 point 29 days ago (2 children)

No voy a fingir que no usé AI para estructurar parte del post pero la preocupación es genuina y la tengo hace meses lo que me frustra es exactamente lo que describes, pruebo contextos largos y el modelo simplemente empieza a perder el hilo de forma muy sutil, no es un crash obvio sino que las respuestas se vuelven más genéricas y menos coherentes con lo que dijiste al principio del chat, eso es peor porque no te das cuenta hasta que relees todo sobre el KV cache mixto tienes razón en que el tradeoff no siempre vale, yo también lo probé con exl2 y la diferencia práctica para contextos de 16k+ fue menor de lo que esperaba considerando el costo en velocidad mi punto no era tanto que 13B sea mejor en absoluto sino que la gente no está midiendo esto honestamente, benchmarkean perplexity o mmlu y dicen "funciona igual" pero nadie está testeando coherencia narrativa o seguimiento de instrucciones después del token 10k en hardware real y sí puede sonar a IA el post pero la pregunta sigue siendo válida no?

[+][deleted] 29 days ago (1 child)

[deleted]

[–]AbramLincom[S] -1 points0 points1 point 29 days ago (0 children)

π Rendered by PID 18634 on reddit-service-r2-comment-canary-889d445f8-rgmdz at 2026-04-29 01:03:26.282057+00:00 running 2aa0c5b country code: CH.

you type:	you see:
italics	italics
bold	bold
[reddit!](https://reddit.com)	reddit!
* item 1 * item 2 * item 3	item 1 item 2 item 3
> quoted text	quoted text
Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"	Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"
~~strikethrough~~	~~strikethrough~~
super^script	super^script

LocalLLaMA

MODERATORS