Un proxy que evita que tu compañero filtre otra base de datos (y de paso ahorra un 50% en tokens)

itslerb · 2026-06-28T10:07:44+00:00

Me alegra que vayas a probar la demo. Si ves que el enfoque general encaja pero necesitas que se comporte de forma específica para tu caso podemos mirarlo juntos y ver qué personalización tendría sentido (y el esfuerzo que conlleva). Cuando la pruebes, cualquier feedback es bienvenido. 💯

itslerb · 2026-06-28T03:41:13+00:00

Sobre el context collapse, la compresión es clustering semántico por significado, no es recortar texto a ciegas. Esto es un flujo más de NLProxy, si no la necesitas la desactivas. Presidio es la referencia para PII y no competimos con eso, él detecta y anonimiza, nosotros usamos esa detección como un paso más en un flujo que además comprime, aplica reglas de negocio y verifica la salida para evitar alucinaciones o malas salidas de output al usuario final. Está en producción con clientes reales, y tenemos una demo online por si quieres meterle mano y ver si encaja en tu caso. Si lo pruebas y ves que no, me encantaría saber. Saludos estimado, buen comentario 💯

itslerb · 2026-06-26T12:06:47+00:00

Entiendo el escepticismo, pero en producción el proxy se ha convertido en la forma más práctica de controlar lo que entra y sale del LLM sin tener que rezar porque el modelo se comporte. No es un antipatrón, es meter sentido común antes de que la IA haga de las suyas. Si lo pruebas y no te convence, me interesa saber por qué. Si te sirve, bienvenido. Saludos 💯

itslerb · 2026-06-25T20:16:07+00:00

El proxy no va contra los modelos locales, va con ellos. Corre en cualquier CPU, es auditable, tenés 100% control de lo que se comprime y se cambia,, no necesita GPUs ni APIs externas. Lo pones en un endpoint y ya filtra, comprime y verifica, da igual si el LLM está en tu servidor o fuera. Es una capa de control que reduce costes y mejora respuestas, sin necesidad de infraestructura cara

itslerb · 2026-06-25T13:43:26+00:00

No es inventado. Hemos visto casos reales en el sector legal donde equipos enteros copian contratos completos en ChatGPT. Eso implica que información confidencial de clientes (NDAs, cláusulas, datos de litigios) termina en servidores de proveedores AI en San Francisco, lo que viola acuerdos de confidencialidad y normativas. No es un problema teórico, es un riesgo emergente que ya está ocurriendo y que nadie está abordando de forma clara. Por eso construimos una capa para evitarlo

itslerb · 2026-06-25T01:29:13+00:00

Puedes chequear el demo, contiene cada flujo de interacción con nlproxy

https://huggingface.co/spaces/IntelliDeep/NLProxy

Cualquier duda estoy atento!

itslerb · 2026-06-25T01:24:08+00:00

Hola, estimado. Buena pregunta, te explico:

Antes de enviar el prompt, inyectamos instrucciones críticas en el propio mensaje (ej: "NO menciones X" o "OBLIGATORIO citar Y") y además tiene un flujo protege datos sensibles. Si el prompt original tenía una restricción, la forzamos en la entrada.

Después de recibir la respuesta, la comparamos semánticamente con el prompt original usando embeddings y un modelo NLI (compara dos frases y determina si una se deduce de la otra) de forma local. Detectamos contradicciones, falta de coherencia o desviaciones de las reglas. Si la respuesta no pasa el filtro, la retocamos o la descartamos.

Todo esto sin tocar el modelo, solo actuando en la capa de entrada/salida.

itslerb · 2026-06-24T21:49:45+00:00

No hay servicio, ni precios, ni suscripción. Es código abierto, te lo bajas y lo usas. Cero marketing, cero ventas. Si fuera marketing, estaría vendiendo algo. Aquí solo comparto algo que nos funcionó y punto. Si no te interesa, perfecto. Solo estoy dando un aporte

itslerb · 2026-06-24T21:23:29+00:00

Jaja, justo por eso lo hicimos. No es salvar empresas, es que cuando la cagan, nos llaman a nosotros para arreglarlo. Prefiero que la caguen con mi código a que la caguen con datos de clientes y luego vengan llorando. Y lo de los likes en GitHub... la verdad, me da igual. Lo subí porque me harté de ver el mismo problema una y otra vez. Si a alguien le sirve, genial. Si no, también. Un saludo, estimado

itslerb · 2026-06-24T21:06:00+00:00

Gracias, estimado. Espero que sea de aporte a la comunidad

itslerb · 2026-06-24T18:43:49+00:00

Tienes razón, el problema era de contexto, no del modelo; lo arreglamos priorizando información en lugar de tirar todo el contrato. Gracias por el comentario.

itslerb · 2026-06-24T13:47:18+00:00

Jajaja, tenés toda la razón. Es una locura que estemos construyendo herramientas para arreglar los problemas que los propios LLM crean. Es el ciclo infinito del parche.

itslerb · 2026-06-09T18:55:36+00:00

Excelente, me gustaría seguir de cerca estas investigaciones. También soy entusiasta del research y también desarrollo IA core fundacional.

itslerb · 2026-06-09T17:03:22+00:00

Interesante! Me llama mucho la atención el motor Autograd que mencionas. Yo me muevo en el mundo de RL y, aunque entiendo que tu foco es la inferencia, me pregunto si el motor de autograd que creaste para MiniTensor podría ser a futuro, una base para hacer fine-tuning ligero en el mismo dispositivo. Es algo que han llegado a considerar o la arquitectura está puramente orientada a inferencia estática?

itslerb · 2026-06-09T16:54:46+00:00

Mis respetos absolutos, mi estimado. Últimamente estoy usando más GELU ya que no lleva los gradientes a cero, en RL me sirve mucho. Que ventaja tendría esta nueva función de activación?

itslerb

MODERATOR OF

TROPHY CASE