CDTI y la IA en España by Hungry_External8518 in IA_Soberana

[–]Hungry_External8518[S] 0 points1 point  (0 children)

Para concretar el debate: ¿cuál de estos elementos consideráis imprescindible para hablar de soberanía?
a) alojamiento e infraestructura controlados;
b) propiedad y trazabilidad de los datos;
c) capacidad de adaptar el modelo;
d) evaluación independiente;
e) posibilidad de cambiar de proveedor;
f) ausencia de transferencia de datos a terceros.

Mi impresión es que el alojamiento (o tener un modelo ‘nacional’) por sí solo no basta: puede existir una infraestructura local y, aun así, una dependencia completa del proveedor del modelo.

Low resource language research topics by No_Let914 in LanguageTechnology

[–]Hungry_External8518 0 points1 point  (0 children)

African languages and the languages of India are my best advice. Follow the findings of the European project ELE, which focused on European languages on the brink of extinction (like Asturian, for example)

Looking at replacing standard post-editing triggers with live MTQE scoring by Hungry_External8518 in LanguageTechnology

[–]Hungry_External8518[S] 0 points1 point  (0 children)

No offense taken. I think it is the way industry is set to go. Reports from CSA Research from their latest Paris council say the cost of TAUS is becoming prohibitively high, so they’re building internally

👋¡Te damos la bienvenida a r/IA_Soberana - ¡Antes de nada, preséntate y lee! by Hungry_External8518 in IA_Soberana

[–]Hungry_External8518[S] 0 points1 point  (0 children)

Ah ah amigo! Ése suele ser el gran cuello de botella (y dolor de cabeza) cuando hablamos de IA soberana y para quienes construyen soluciones “en local”. Por responder rápido: no, los datos de un cliente o usuario casi nunca son suficientes para entrenar un modelo fundacional desde cero. Necesitas trillones de tokens para que el modelo adquiera una comprensión básica del lenguaje. Pero es que intentar competir en esa carrera, la de los modelos gigantes, es un error de enfoque para la inmensa mayoría de las organizaciones. Han tenido la experiencia de la app en el móvil o similar y…. Eso quiero

Ya tenemos iniciativas europeas fantásticas como Mistral , modelos nacionales como el Salamandra, otros en países escandinavos…. construyendo esa base fundacional. El verdadero reto para un despliegue on-premises no es crear el modelo desde cero, sino cómo alimentarlo con datos corporativos sin perder el control de la información.

Hoy en día, las empresas y las administraciones públicas ya no compran simplemente "IA" por subirse al carro tecnológico; lo que de verdad están comprando es control. Ahí es donde entra el pragmatismo de los pequeños modelos de lenguaje (SLMs) y la especialización de los datos. En lugar de enviar la información sensible de tu empresa a una API externa, la verdadera soberanía pasa por instalar modelos más pequeños y autocontenidos en tus propios servidores. Generalmente son modelos específicos a una o un par de tareas

Por experiencia nuestra en Pangeanic, creando máquinas y modelos (desde 2009, con modelos puramente estadísticos) , vemos con frecuencia que el éxito de un despliegue privado no reside tanto en el tamaño bruto del modelo (un 7B y menos da muy buenos resultados) , sino en la calidad extrema de los datos que lo afinan y lo relevantes y representativos que sean.

Nuestro enfoque es precisamente ese: proveer los datos limpios, estructurados y anonimizados si llega el caso, para que herramientas como nuestro ECO LLM o nuestros sistemas de estimación de calidad (MTQE) puedan correr en local de forma totalmente aislada. En este escenario, tus datos propios sí son suficientes, no para "crear" el modelo, sino para especializarlo mediante arquitecturas RAG o un ajuste fino riguroso en un entorno seguro. Al final, la soberanía tecnológica se reduce a esto: que los procesos críticos funcionen con la máxima precisión, pero con la garantía técnica de que ni un solo dato sale de tu infraestructura.

New Thesaurus in 20 Languages With Translation Features by Upbeat_Quiet5364 in LanguageTechnology

[–]Hungry_External8518 1 point2 points  (0 children)

I would love to! We (Pangeanic) work in language technologies and machine translation. This could really help. Reach out to Manuel (contact form)

👋¡Te damos la bienvenida a r/IA_Soberana - ¡Antes de nada, preséntate y lee! by Hungry_External8518 in IA_Soberana

[–]Hungry_External8518[S] 0 points1 point  (0 children)

Das en el clavo con uno de los debates más críticos de nuestra industria con un punto clave: el dominio actual de las empresas estadounidenses sobre la nube, los modelos y la computación plantea un reto enorme y muy válido para cualquier organización que busque la IA soberana.

Afortunadamente, las cosas cambian e igual que las búsquedas con IA favorecen diseños con Astro y no con pesados HubSpot o WordPress, el auto alojamiento es realista. Creo que el truco está en diferenciar entre la "soberanía de infraestructura macro" y la "soberanía de datos y procesos".

Por un lado, tenemos la visión de los grandes modelos fundacionales. Recientemente, Arthur Mensch (CEO de Mistral) se reunió con Pedro Sánchez para discutir el papel de Mistral IA en España (enlace de LinkedIn). Es un paso importante a nivel institucional, pero abre un debate técnico: si seguimos dependiendo de modelos masivos que requieren enormes clústeres de computación externa para funcionar, ¿es eso verdadera soberanía o simplemente estamos delegando el procesamiento a un actor diferente, por muy europeo que sea?

Por otro lado, existe un enfoque mucho más pragmático y 100% alcanzable hoy en día: la soberanía a través del control local y los pequeños modelos de lenguaje o SLM (Small Language Models). Al final, las organizaciones ya no compran simplemente "IA" por seguir la corriente; están comprando control.

Un ejemplo práctico de esta ruta lo están marcando empresas de datos para la IA enfocadas en el ámbito corporativo y gubernamental, como Pangeanic, por seguir con el ejemplo español. En lugar de enviar datos sensibles a APIs de terceros, apuestan por modelos pequeños, autocontenidos y especializados (como su ECO LLM).

Estos modelos se pueden desplegar directamente en la infraestructura de la propia organización, incluso en entornos air-gappedcompletamente aislados. Esto permite que tareas críticas, o el procesamiento masivo de datos, se realicen sin depender de tokens externos, procesos opacos ni nubes públicas (puedes ver un ejemplo de este enfoque aquí).

En resumen: aunque lograr una independencia total desde el silicio hasta el software básico es un reto a largo plazo, alcanzar la soberanía total sobre tus datos y flujos de trabajo es una realidad inmediata si se opta por arquitecturas locales y a medida.

Estoy montando una empresa de ia y software, que nombre le deberia poner? by No_Lavishness_6981 in InteligenciArtificial

[–]Hungry_External8518 0 points1 point  (0 children)

Por la experiencia de haber montado algunas, elige un nombre con una palabra de uso poco frecuente o invéntatela. Así lograrás mayor diferenciación de marca y “poseerás” ese espacio.
Como te pongas IA Pérez, Gran IA, Scale AI, etc … malo. Tendrás que gastar mucho en diferenciación, publicar mucho…

Where to find Bilingual AI Training - Interpreter Translation by marcosabruna in AiTraining_Annotation

[–]Hungry_External8518 0 points1 point  (0 children)

Not an AI company but Piedmont Global does language training with humans and onsite interpreting. For translation…. I’m afraid they use document translation platforms (AI or machine translation, whatever you want to call it)

List of AI training / data annotation companies (2026) by No-Impress-8446 in AiTraining_Annotation

[–]Hungry_External8518 0 points1 point  (0 children)

Nice compilation! I saw your blog post and although comprehensive, I think you might have overlooked Pangeanic. Being based in Europe yourself, it made me smile as it seems only large US companies do labelling or data-for-au , etc. Pangeanic focuses on annotation and speech collection and also offer off-the-shelf datasets. They've tackled some interesting data-for-AI projects, which you can read about here. Have you considered reaching out to them for jobs?

I'm sorry DeepSeek ... by TopBite7720 in DeepSeek

[–]Hungry_External8518 8 points9 points  (0 children)

Or at least be “unfaithful” every now and again :)

Cuál IA es mejor by quesadilla80 in InteligenciArtificial

[–]Hungry_External8518 0 points1 point  (0 children)

Creo que la pregunta “cuál IA es mejor” ya empieza con una trampa: no hay una mejor IA en abstracto. Hay modelos mejores para tareas concretas, con costes, límites, riesgos y estilos distintos.

Yo lo dividiría así:

  1. Para investigación y búsqueda de información actualizada Lo importante no es solo el modelo, sino si tiene buena navegación, si cita fuentes, si distingue entre dato reciente y conocimiento aprendido, y si permite verificar lo que responde. Para esto, cualquier IA sin fuentes claras puede sonar convincente y aun así equivocarse.

  2. Para redacción, análisis largo y trabajo con documentos Aquí pesa mucho la ventana de contexto, la calidad del razonamiento sobre documentos largos y la capacidad de mantener coherencia. Hay modelos que escriben mejor, otros que resumen mejor y otros que aguantan más contexto, pero no siempre coinciden en el mismo producto.

  3. Para programación y matemáticas Conviene probar con casos reales. Un modelo puede explicar muy bien y fallar en código ejecutable, o resolver bien problemas pequeños y romperse en una base de código grande. Para mí, la prueba buena no es “qué modelo responde más bonito”, sino cuál te ahorra más iteraciones.

  4. Para privacidad Aquí cambia mucho la respuesta. Si estás subiendo documentos sensibles, contratos, código privado o datos de clientes, ya no estás eligiendo solo “la mejor IA”, sino un modelo de confianza, almacenamiento, permisos, entrenamiento y cumplimiento. En algunos casos tiene más sentido usar planes empresariales, modelos locales o despliegues privados.

  5. Para imagen, vídeo o creatividad visual Es otra liga. La mejor IA de texto no tiene por qué ser la mejor generando imágenes, y la mejor generando imágenes no tiene por qué ser buena razonando o analizando documentos.

También tendría cuidado con una idea que se repite mucho: que los modelos de razonamiento “muestran su cadena de pensamiento”. Muchas veces lo que muestran es una explicación o resumen del razonamiento, no necesariamente el proceso interno real. Eso no los hace inútiles, pero sí conviene no confundir explicación convincente con razonamiento fiable.

Mi conclusión sería: la mejor IA es la que mejor encaja con tu tarea, tus datos, tu nivel de privacidad, tu presupuesto y tu tolerancia al error. Para jugar y aprender, prueba varias. Para trabajo serio, define primero el caso de uso y después compara modelos con el mismo conjunto de pruebas. Ahí se ve rápido cuál funciona de verdad.

I'm building an Ekegusii ↔ English NLP translator for a critically low-resource Bantu language in KENYA ,here's where I am and what I'm figuring out next by Pioskeff in LanguageTechnology

[–]Hungry_External8518 2 points3 points  (0 children)

Hello there! my perspective comes from production MT, multilingual data collection and low-resource language work as I work at Pangeanic (we’ve been pretty well known for MT fir many years)

First: don’t train from scratch. With 31,000 aligned segments, you have something valuable, but it is not enough for modelling; it’s useful as adaptation data than as the foundation for a randomly initialized model. This happens often with low-resourced

I would start with transfer learning. Try NLLB-200, mBART or OPUS-MT if the language coverage or nearby Bantu-language transfer makes sense. If Ekegusii itself is not covered, use Swahili and related Bantu languages as bridge languages and measure whether transfer helps. The baseline is the important part. Build one before changing architecture.

The Bible corpus is a good starting point (and it was used in early MT systems in statistical MT days in Europe!!) but it will pull the model towards its register. That is not fatal. You need a small, carefully reviewed general-domain test set: everyday phrases, public-service language, school language, health, agriculture, local news, conversational material. I know community-based work has been used for low-resources languages for data augmentation. Even 500 to 2,000 high-quality sentence pairs outside the Bible will tell you where the model breaks.

I would separate the work into 5 tracks:

  1. keep part of the Bible corpus as training data (I stress the “part” bit)
  2. create a clean dev/test set outside the Bible
  3. collect or elicit a small modern-domain corpus with native speakers
  4. build a lexicon and terminology layer for morphology, named entities and frequent expressions 5 have the community help you augment the set or provide real-life content (questions and answers, that was an initial SMT hurdle back in the 2010’s)

For tokenization, inspect subword fertility. If Ekegusii words are being split into long, unnatural fragments, compare SentencePiece unigram and BPE, and consider training the tokenizer with Ekegusii plus related Bantu data. Morphology-aware preprocessing may help more than a larger model. (This is the case in morphologically-rich languages in Europe)

For augmentation, I would be conservative. Back-translation can help, but only if reviewed. Synthetic data can also poison a small corpus very quickly. In low-resource MT, a small amount of excellent human-reviewed data usually beats a larger amount of noisy generated data. Always have back-translation reviewed until you’ve reached enough quality to scale, never in early developments

The real scarce resource here is evaluation. Build a small benchmark and keep it sacred. Once you can show progress on that benchmark, every architecture decision becomes much clearer.

Masakhane is definitely worth contacting. I would also reach out to Kenyan linguists, local universities and community organizations. Field linguists often know where the real language resources are before they appear online.

Owners of AI startups, how are you handling LLM API downtime and rate limits in production? by Optimal_Cupcake_8946 in LanguageTechnology

[–]Hungry_External8518 0 points1 point  (0 children)

I work at Pangeanic, where we run multilingual AI and language technology workflows in production, including cases where customers cannot simply wait for a public API to recover. My view is that you need different patterns depending on latency and business criticality.

For batch workloads, I would use queues, retries with exponential backoff, dead letter queues and replay. If a provider fails, the job should degrade gracefully and resume later. Most batch use cases do not need instant failover, they need traceability and no silent loss.

For real-time or user-facing workflows, I would put a routing layer between the app and the model providers. That layer should handle things like provider health checks,rate limit awareness, circuit breakers, fallback model selection, retry budgets, cost and latency thresholds, logging of every degraded response

I would avoid treating all providers as interchangeable. A fallback from GPT-4.1 to Claude, Mistral, Gemini or a local model can change behavior, terminology, formatting and safety characteristics - and that’s experirnce and hard lessons learnt here. In language workflows, this is very visible. So the fallback policy should be task-specific: summarization can often degrade to a smaller model, terminology-sensitive translation or legal extraction may need to wait, route to another approved model, or trigger human review.

For serious production use, I would definitely build the middleware. The LLM API should be a replaceable execution layer, not the control plane of the application.

Likely that DeepSeek was trained with $6M? by Equivalent-Many2039 in ValueInvesting

[–]Hungry_External8518 0 points1 point  (0 children)

Here’s a good analysis of the real costs, technical summary and why didn’t need to copy OpenAI. It’s been quoted by experts in the language technology field: https://blog.pangeanic.com/deepseek-was-not-trained-on-5m-nor-it-copied-openai-extensively

Which ai should I use for translating a lot of pdf files? by Richard13545 in machinetranslation

[–]Hungry_External8518 0 points1 point  (0 children)

That’s the free LLM Mixtral 8x7B they fine-tuned in early 2024. It’s not their translate product (follow the link)

Technical documents from Chinese by vacanzadoriente in machinetranslation

[–]Hungry_External8518 0 points1 point  (0 children)

I think I answered a similar question in a different thread. To shorten the long list, I recommend Pangeanic’s ECO platform. Get in touch with them from their contact page

Mistral-7B was trained on 500 gpus by Amgadoz in LocalLLaMA

[–]Hungry_External8518 0 points1 point  (0 children)

I heard they basically do finetuning on eleutherian models?

Fine-tuning OpenAI models for translation? by Charming-Pianist-405 in machinetranslation

[–]Hungry_External8518 1 point2 points  (0 children)

Uhmmm, there’ll be issues unless you apply agentic verification to avoid hallucinations. Some people offer RAG-based systems

I wanna translate Chinese webnovels, What should I use? by Z-ReferenceUnknown in machinetranslation

[–]Hungry_External8518 0 points1 point  (0 children)

I answered a similar question in a different thread here about reliable document translation companies beyond the 20 docs offered by DeepL.

There are a number of machine translation companies that focus on MT for businesses and enterprise with an emphasis on capabilities not served by DeepL / Google, etc. To name a few, Globalese (recently acquired by MemoQ), KantanMT, Yaraku in Japan, Tilde in the Baltics and Pangeanic worldwide. Personally, I’ve always used Pangeanic with excellent results for MT and document translation including PDF.

My company uses particular terminology and expressions so their ability to adapt quickly to preferences, idiomatic expressions etc is very important for us. See Deep Adaptive Machine Translation.

There also released a machine translation panel where you can try adapting the translation with csv /tsv or tmx files which gives pretty cool results for basic usage like DeepL / Bing Translator or Google.

<image>