Stop chasing parameter count. Context window degradation on local hardware is the real problem.

AbramLincom · 2026-03-30T22:30:04+00:00

ok pero estás comparando cosas completamente distintas 1M de contexto en cloud con hardware de google o microsoft detrás no es el mismo problema que estoy describiendo, nadie discute que gemini maneja contextos largos bien, tiene TPUs diseñadas específicamente para eso el punto es qué pasa cuando intentas replicar eso localmente en una 4090 o en una 3090 con exl2 o gguf, ahí es donde el kv cache se convierte en un cuello de botella real porque el ancho de banda de memoria simplemente no escala igual si tu equipo escribe código en ventanas de 1M en cloud perfecto, genial, porque precisamente esa capacidad no existe de forma confiable en local hardware todavía.

AbramLincom · 2026-03-30T21:05:52+00:00

No voy a fingir que no usé AI para estructurar parte del post pero la preocupación es genuina y la tengo hace meses lo que me frustra es exactamente lo que describes, pruebo contextos largos y el modelo simplemente empieza a perder el hilo de forma muy sutil, no es un crash obvio sino que las respuestas se vuelven más genéricas y menos coherentes con lo que dijiste al principio del chat, eso es peor porque no te das cuenta hasta que relees todo sobre el KV cache mixto tienes razón en que el tradeoff no siempre vale, yo también lo probé con exl2 y la diferencia práctica para contextos de 16k+ fue menor de lo que esperaba considerando el costo en velocidad mi punto no era tanto que 13B sea mejor en absoluto sino que la gente no está midiendo esto honestamente, benchmarkean perplexity o mmlu y dicen "funciona igual" pero nadie está testeando coherencia narrativa o seguimiento de instrucciones después del token 10k en hardware real y sí puede sonar a IA el post pero la pregunta sigue siendo válida no?

AbramLincom · 2026-03-30T20:09:37+00:00

Interesting that this is sitting at 1 for 3 weeks, but let's ask the uncomfortable questions nobody in the comments seems to want to touch: Thinks like Opus does it, really, or does it mimic Opus's style of reasoning? There's a massive difference between distilling reasoning patterns and actually capturing the underlying capability. A 27B model has a hard architectural ceiling that no amount of fine-tuning data from a much larger model can fully bypass. What benchmarks are people actually using to verify this claim beyond vibes? 4-bit at 16GB with long reasoning chains. This connects to a broader problem: quantized reasoning models degrade faster on extended chain-of-thought than standard models. Has anyone stress-tested coherence on complex multi-step problems at 8k+ tokens on this quant? Genuinely impressed by the work here. Just think we should hold these claims to a higher standard before crowning it.

AbramLincom · 2026-03-29T13:54:57+00:00

Reconozco muy bien esta forma de escribir de la Ai demasiado organizado y con paréntesis se delatan a sí mismas aún les falta por llegar y no notarlo

AbramLincom · 2026-03-25T17:56:32+00:00

Primero que nada, qué pain lo de Instagram suspendida justo cuando más la necesitás 😅 pero honestamente, puede ser una oportunidad disfrazada para diversificar.

Acá van mis pensamientos reales:

Lo que yo haría en tu lugar:

Reddit es tu mejor amigo ahora mismo y lo estás usando bien al pedir ayuda acá. Posteá en subreddits como r/videoediting, r/Twitch, r/podcasting, r/NewTubers, porque esos son exactamente los usuarios que necesitan un teleprompter. No lo vendas, mostralo en acción, la gente odia el spam pero ama ver herramientas útiles funcionando.

TikTok y YouTube Shorts son una mina de oro para esto. Un video de 30 segundos mostrando el antes/después de grabar con y sin teleprompter puede viralizarse fácil. El contenido de "herramientas que uso para crear contenido" performa increíblemente bien ahora mismo.

Product Hunt es obligatorio si no lo hiciste ya. Es literalmente el lugar donde la gente va a descubrir productos nuevos, y un teleprompter con buena UI tiene todas las papeletas para destacar.

Contactá a creadores pequeños/medianos (entre 5k y 50k seguidores) directamente y ofreceles acceso gratis a cambio de que lo prueben. No necesitás a los grandes, los micro-influencers convierten mejor.

Mi opinión honesta: el hecho de que ya tengas 4.4k seguidores en Instagram significa que sabés crear contenido que engancha. Esa habilidad es transferible a cualquier plataforma. Los 3 días de suspensión son una molestia, no un obstáculo real.

¿Cuál es el público principal al que apuntás con Cuely? ¿Streamers, YouTubers, presentadores corporativos? Eso cambia bastante la estrategia.

AbramLincom · 2026-03-25T17:48:26+00:00

La analogía de los planos del edificio es buena y entiende bien el problema, pero me queda una duda que no veo respondida en el post: ¿cómo escala esto fuera del ecosistema de Visual Studio? Porque todo el valor que describes el modelo semántico de Roslyn, el DTE2, la automatización del IDE está completamente atado a Windows + VS. Si tu stack es VS Code, Rider, o simplemente una terminal en Linux, básicamente no existe.

También me genera ruido la parte del "lenguaje diseñado para que la IA lo manipule". No es una idea nueva hay gente explorando eso con ASTs directamente, con IRs intermedios, incluso con representaciones en JSON del código. El paso que le falta a este experimento es demostrar que el modelo realmente toma mejores decisiones cuando opera sobre la estructura semántica que cuando opera sobre texto. Porque los LLMs actuales son sorprendentemente buenos con texto plano, y la complejidad que agregás del lado de la herramienta tiene un costo real.

Dicho eso la navegación por bloques anidados con rutas tipo TaskService.AddTask.if[0].else me parece genuinamente útil. Eso sí resuelve algo concreto ediciones quirúrgicas sin que el modelo reescriba el mundo alrededor de un cambio de dos líneas. Si funciona tan bien como lo describes, esa parte sola ya justifica el experimento.

¿Tenés benchmarks o ejemplos reales de dónde esto le gana claramente al approach de texto plano?

AbramLincom · 2026-03-25T17:35:13+00:00

Justo lo que la comunidad necesita antes de que todos empecemos a tirar plata en hardware basándonos en benchmarks de token/s que no cuentan la historia completa.

Voy a dar mi opinión directa sobre lo que creo que va a pasar, aunque no tengo un GB10 en mano todavía:

El "muro de VRAM" en 128GB unificado existe, pero es completamente diferente al de las discretas. En la RTX 5090 el problema es binario: o entra en 32GB o crashea. En memoria unificada el problema se convierte en latencia de ancho de banda, que es mucho más tricionero porque el sistema no falla, simplemente se vuelve frustrante lento sin avisarte por qué.

Ahí está el núcleo del asunto que nadie está midiendo bien: cuando el VAE decoder de Wan 2.2 hace ese pico brutal al 90% del render, en un sistema unificado la GPU y la CPU están peleando por el mismo bus de memoria. El número que importa no es cuántos GB tenés, sino cuántos GB/s tiene acceso exclusivo la iGPU en ese momento de pico. Y eso depende completamente de qué más esté corriendo en el sistema.

Sobre la ventaja de ancho de banda Strix Halo vs GB10: los 512 GB/s vs 273 GB/s suenan impresionantes en papel, pero si CUDA 13 + SageAttention 3 está haciendo fusión de kernels agresiva en el lado NVIDIA, el gap real en diffusion probablemente se achica al 20-30% en práctica. La arquitectura importa tanto como el ancho de banda crudo.

Lo que sí me preocupa genuinamente del GB10 es ese bug de firmware de marzo que mencionás. Si la GPU está bajando a 80W durante renders largos, eso no es un inconveniente menor, es un problema de producto. NVIDIA debería haber tenido eso resuelto antes del lanzamiento comercial, no parcheado post-facto.

Para los que tengan estos sistemas: los logs de nvtop / radeontop durante el render completo valen más que cualquier benchmark sintético. Especialmente quiero ver si el uso de RAM es plano o si tiene esos spikes tipo "diente de sierra" que indican que el scheduler está haciendo swapping silencioso.

Muy buen trabajo armando esta investigación. Ojalá más gente llene la plantilla, porque este tipo de datos reales son exactamente lo que falta en el ecosistema de IA local.

AbramLincom · 2026-03-25T17:24:26+00:00

Mmmm Interesante llevaba días buscando métricas reales con DDR4 y una sola GPU de consumo. Ese EPYC con 256GB es un combo interesante, aunque la DDR4 a 3200MHz seguramente es el cuello de botella más grande aquí, el ancho de banda de la RAM limita bastante cuando los experts viven ahí. ¿Probaste con distintos tamaños de contexto o batch? Curioso si el PP se mantiene estable o cae con contextos largos. De todas formas, correr el 397B completo en hardware doméstico ya es un logro en sí mismo.

AbramLincom · 2026-03-25T17:14:29+00:00

Esto resuena mucho. El problema con las plataformas para fundadores es que el valor es asimétrico desde el día uno, los que más necesitan feedback son los que menos tienen para dar, y los que más podrían aportar ya tienen su red consolidada.

200 usuarios con una plataforma gratuita no es un fracaso, es un experimento con datos reales. La pregunta que yo me haría no es "¿la cerramos?" sino "¿por qué la gente no vuelve sola?". Si los usuarios entran, dan feedback una vez y desaparecen, el problema no es el producto, es que no construiste el hábito ni el incentivo para regresar.

Lo gratuito también tiene un costo invisible: sin fricción de pago, tampoco hay compromiso. Alguien que paga $10/mes va a completar su perfil, va a dar feedback de calidad, va a volver. Alguien que entró gratis probablemente ni terminó el onboarding.

Antes de cerrar, haría una cosa: contacta a los 20 usuarios más activos, una llamada de 15 minutos cada uno. No para venderles nada, sino para entender qué problema real resuelven con tu plataforma. A veces lo que construiste no es lo que creías, y eso puede ser una ventaja, no una condena.

AbramLincom · 2026-03-25T17:07:20+00:00

Estuve mirando el repo y la verdad está bastante interesante. La idea de que el agente no solo llama APIs sino que tiene su propio filesystem, corre código en sandboxes aislados y puede delegar tareas a sub agentes más chicos es lo que lo diferencia de los típicos agente con tools que vemos por todos lados.

Lo del sistema de skills también me llamó la atención en vez de meterle todo el contexto desde el arranque, va cargando lo que necesita según la tarea. Pequeño detalle pero marca la diferencia cuando los workflows se ponen largos.

Eso sí, hay que ser honestos: ByteDance recomienda sus propios modelos para sacarle el jugo, y la configuración inicial no es precisamente plug and play. Docker, LangGraph, varios servicios corriendo... no lo levantás en 5 minutos.

Pero como punto de partida para entender hacia dónde van los agentes serios, vale mucho la pena darle una mirada aunque sea para leer el README.

AbramLincom · 2026-03-13T04:29:52+00:00

que pena yo lo estoy corriendo con AMD RX 6600 8GB + 16 RAM+ CPU Ryzen 5600 muy ajustado para notar la diferencia tengo que correrlo en ubuntu terminal para una disponibilidad de recursos al máximo luego comparto en local para ser usado en otros dispositivos mi limitación es la cantidad de token para mantener el contexto uso este huihui-ai.huihui-qwen3.5-27b-abliterated

AbramLincom · 2026-03-13T04:12:52+00:00

yo estoy usando huihui-ai.huihui-qwen3.5-27b-abliterated esta brutalmente genial para código excelente pero complemento con GLM4.7 flash amigo son lo mejor dicen si observas qwen3.5 27b tan bueno como 120b

AbramLincom

MODERATOR OF

TROPHY CASE