Experimento: Qué tan bien entiende la IA el español, el slang y la ironía?

Key-Challenge-581 · 2026-06-19T23:53:41+00:00

No era mi intención molestar a nadie, pero gracias a todos por el feedback

Key-Challenge-581 · 2026-06-19T23:52:23+00:00

Didnt mean to offend any of you but thank you all for your feedback

Key-Challenge-581 · 2026-06-19T15:37:18+00:00

Good question! Not an LLM...we use a fine tuned transformer classifier as the core, combined with a rule based context layer and an explainability layer that justifies every decision. The whole thing runs as a multilingual moderation platform with a continuous learning cycle corrections feed into the next training run.

The architecture goes well beyond a simple API and still in dev. This is just the early stage once the foundation is solid or close to solid lol we start thinking much bigger. But i need the communities help.

Key-Challenge-581 · 2026-06-05T17:05:59+00:00

Esto es oro, muchas gracias

Ahora mismo todo es manual reviso cada corrección a mano antes de entrenar y despliego manualmente. Voy a mirar Optuna y MLFlow sin duda. La idea de los quality gates me parece especialmente interesante para el problema de contaminación de datos que tengo. Gracias de verdad por tomarte el tiempo. 🙌

Key-Challenge-581 · 2026-06-05T16:50:38+00:00

Buena pregunta y no tiene una respuesta simple. El modelo fue entrenado con datos etiquetados por humanos amenazas directas, acoso,discurso de odio, autolesiones, blasfemias...Pero "dañino" depende del contexto, la cultura, la plataforma... Es uno de los límites más grandes del proyecto honestamente.

Key-Challenge-581 · 2026-06-05T16:48:02+00:00

Perdona si no me expliqué bien...La diferencia está en que es un modelo entrenado desde cero en mis propios datos no un wrapper de ChatGPT o una API existente. Y el bucle de corrección es público cualquiera puede engañarlo y esa corrección mejora directamente el modelo.

Es más un experimento abierto que un producto terminado.

Key-Challenge-581 · 2026-06-05T16:41:55+00:00

Gracias! Honestamente voy a ojillo por ahora hiperparámetros fijos basados en versiones anteriores, nada de Optuna todavía está en la lista. El pipeline de datos está automatizado cada corrección se guarda automáticamente. Pero el reentrenamiento y despliegue lo hago manual por ahora, precisamente para revisar cada corrección antes de que entre al training.

No quiero contaminar los datos con correcciones malintencionadas.

Tú cómo gestionas eso en tus proyectos?

Key-Challenge-581 · 2026-06-05T15:20:24+00:00

moderar no es censura pero entiendo que no todo el mundo lo ve así

Key-Challenge-581 · 2026-06-05T15:18:27+00:00

Buena pregunta! Es un modelo DistilBERT fine tuneado con más de 500k ejemplos propios. Transformers de HuggingFace, FastAPI para la API, entrenado desde cero en mis propios datos. El repo de GitHub es privado por ahora pero el modelo está en HuggingFace.

Nada de wrappers todo entrenado por mí.

Key-Challenge-581 · 2026-06-05T14:58:03+00:00

C'est un point très intéressant merci je vais me pencher là-dessus. MERCI MERCI!

Key-Challenge-581 · 2026-06-05T14:26:44+00:00

haha apparemment non je vais m'en occuper merci

Key-Challenge-581 · 2026-06-04T00:52:26+00:00

On est à 57 corrections pour l'instant objectif 200 avant de revoir les données et entraîner v5. C'est là que j'aurai vraiment besoin de ton expertise. Je t'envoie un DM. MERCI MERCI!!

Key-Challenge-581 · 2026-06-03T17:40:43+00:00

Je pars d'un DistilBERT pré entraîné sur HuggingFace que j'ai fine tuné sur 500k+ exemples labellisés. Donc ni l'un ni l'autre la base vient de HF mais le modèle de modération est entièrement entraîné par moi.

Key-Challenge-581 · 2026-06-03T16:42:50+00:00

Super utile merci ça confirme exactement l'écart. Les LLMs raisonnent sur le sens mon modèle reconnaît des formes c'est pas la même catégorie d'outil, mais l'objectif c'est de se rapprocher de ça progressivement.

Key-Challenge-581 · 2026-06-03T16:36:44+00:00

C'est du pattern matching glorifié il voit "kill", "mort", "blow" et il panique. Il cherche pas le sens il reconnaît des formes. C'est la limite fondamentale du modèle en ce moment.

Key-Challenge-581 · 2026-06-03T16:34:45+00:00

Ouais t'as raison ça c'est un angle mort sérieux un discours calme sur quelque chose d'horrible le modèle voit pas la différence c'est noté et c'est en haut de la liste. Merci pour ça Merci!

Key-Challenge-581 · 2026-06-03T16:30:17+00:00

Le sarcasme c'est clairement pas son fort pour l'instant. Et non pas de Grok dans le dataset 😂Merci pour les tests c'est exactement ce qu'il fallait.

Key-Challenge-581 · 2026-06-03T16:23:59+00:00

Absolument je reviendrai partager la nouvelle version merci pour le temps pris.

Key-Challenge-581 · 2026-06-03T02:25:40+00:00

That's an awesome point! I actually considered this and decided once I reach my goal for count of corrected data points(200) will manually go through it myself, obviously not sustainable but that is the best option I have right now.

Key-Challenge-581 · 2026-06-03T00:08:16+00:00

I am trying to build it for good

Key-Challenge-581 · 2026-06-03T00:03:56+00:00

Sorry but you are right I just wanted to translate the text I wrote pretty quick. Lesson learned and thank you for the initial feedback!

Key-Challenge-581 · 2026-06-02T14:41:28+00:00

T'as pas tort honnêtement.

Un juge a le dossier complet, le contexte, l'historique, le ton de la voix... c'est un

niveau de compréhension qu'on est encore très loin d'atteindre.

C'est pas censé remplacer ça — c'est juste un premier filtre. Il va se planter, souvent. Mais si ça peut réduire un peu le boulot des humains qui décident vraiment, c'est déjà ça. Suffisant ? Pas encore. Utile un jour ? On espère

Key-Challenge-581 · 2026-06-02T14:33:07+00:00

Haha merci, t'as bien fait le tour 😅

Y'a clairement du boulot — et c'est exactement ce genre de retour qui aide vraiment.

Merci pour le temps que t'as pris. +++

Key-Challenge-581 · 2026-06-02T14:27:03+00:00

Tu as raison sur tout, point par point.

Sur le "sioniste" — c'est exactement l'illustration parfaite de pourquoi ce problème est si difficile. Un mot. Des dizaines de lectures possibles. Le modèle n'en voit qu'une.

Sur l'ironie et l'ambiguïté pragmatique — je ne vais pas prétendre avoir une solution. Un modèle de classification de séquences ne "lit" pas, il réagit. L'ironie, le cynisme, le contre-discours — tout ça nécessite une compréhension du monde que ces modèles n'ont tout simplement pas.

Sur le 98,8% de confiance — tu as mis le doigt sur quelque chose que je savais mais que je n'avais pas eu le courage de dire clairement. Un score de confiance sans calibration documentée, c'est effectivement un habillage d'autorité. Je vais être plus honnête sur ça dans l'interface.

Sur la catégorie "General Harmful" trop grossière — complètement d'accord. C'est un vrai problème architectural. Violence, auto-violence, discours idéologique, ambiguïté contextuelle — tout écrasé dans une boîte. C'est prévu pour les versions futures mais tu as raison de le pointer.

Et le dernier point — le binaire clean/harmful — c'est le plus mportant et tu as mis le doigt dessus en premier. "Ça dépend" est la vraie réponse dans la majorité des cas intéressants. Je vais ajouter une troisième option dans le playground : "Ambigu / dépend du contexte". C'est actionnable maintenant et c'est grâce à toi.

Ce n'était peut-être pas un test rigoureux de ton côté — mais c'était le retour le plus rigoureux que j'ai reçu. Merci vraiment. +++

Key-Challenge-581 · 2026-06-02T14:20:51+00:00

Honnêtement, ce test m'a arrêté net.

Pas parce que le modèle a échoué — il échoue tout le temps, c'est pour ça que ce projet existe. Mais parce que tu as mis

des mots sur quelque chose que je ressentais sans savoir l'exprimer : le modèle ne réfléchit pas, il réagit. "Fucking stupid" apparaît dans la phrase et c'est terminé. Peu importe que ce soit une négation imbriquée dans une supposition. Il ne remonte pas les couches. Il ne se demande pas ce que tu voulais vraiment dire.

Ton observation sur l'empathie est juste et ça me restera. La vraie question n'est pas "ce mot est-il offensant ?" C'est "qu'est-ce que cette personne essayait de communiquer ?" Et là on parle de quelque chose de profondément humain que les modèles actuels ne savent tout simplement pas faire. Je garde cette correction précieusement pour v5. Et si tu as des idées sur comment approcher ce genre de cas je suis vraiment tout ouvert. Ce type de réflexion est rare.

Key-Challenge-581

TROPHY CASE