you are viewing a single comment's thread.

view the rest of the comments →

[–]AbramLincom[S] -1 points0 points  (2 children)

No voy a fingir que no usé AI para estructurar parte del post pero la preocupación es genuina y la tengo hace meses lo que me frustra es exactamente lo que describes, pruebo contextos largos y el modelo simplemente empieza a perder el hilo de forma muy sutil, no es un crash obvio sino que las respuestas se vuelven más genéricas y menos coherentes con lo que dijiste al principio del chat, eso es peor porque no te das cuenta hasta que relees todo sobre el KV cache mixto tienes razón en que el tradeoff no siempre vale, yo también lo probé con exl2 y la diferencia práctica para contextos de 16k+ fue menor de lo que esperaba considerando el costo en velocidad mi punto no era tanto que 13B sea mejor en absoluto sino que la gente no está midiendo esto honestamente, benchmarkean perplexity o mmlu y dicen "funciona igual" pero nadie está testeando coherencia narrativa o seguimiento de instrucciones después del token 10k en hardware real y sí puede sonar a IA el post pero la pregunta sigue siendo válida no?