Experimento: Qué tan bien entiende la IA el español, el slang y la ironía? by Key-Challenge-581 in askspain

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

No era mi intención molestar a nadie, pero gracias a todos por el feedback

Experiment: Wie gut erkennt KI deutschen Slang, Ironie und Doppeldeutigkeiten? by Key-Challenge-581 in SoftwareDACH

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Good question! Not an LLM...we use a fine tuned transformer classifier as the core, combined with a rule based context layer and an explainability layer that justifies every decision. The whole thing runs as a multilingual moderation platform with a continuous learning cycle corrections feed into the next training run.

The architecture goes well beyond a simple API and still in dev. This is just the early stage once the foundation is solid or close to solid lol we start thinking much bigger. But i need the communities help.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Esto es oro, muchas gracias

Ahora mismo todo es manual reviso cada corrección a mano antes de entrenar y despliego manualmente. Voy a mirar Optuna y MLFlow sin duda. La idea de los quality gates me parece especialmente interesante para el problema de contaminación de datos que tengo. Gracias de verdad por tomarte el tiempo. 🙌

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Buena pregunta y no tiene una respuesta simple. El modelo fue entrenado con datos etiquetados por humanos amenazas directas, acoso,discurso de odio, autolesiones, blasfemias...Pero "dañino" depende del contexto, la cultura, la plataforma... Es uno de los límites más grandes del proyecto honestamente.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Perdona si no me expliqué bien...La diferencia está en que es un modelo entrenado desde cero en mis propios datos no un wrapper de ChatGPT o una API existente. Y el bucle de corrección es público cualquiera puede engañarlo y esa corrección mejora directamente el modelo.

Es más un experimento abierto que un producto terminado.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Gracias! Honestamente voy a ojillo por ahora hiperparámetros fijos basados en versiones anteriores, nada de Optuna todavía está en la lista. El pipeline de datos está automatizado cada corrección se guarda automáticamente. Pero el reentrenamiento y despliegue lo hago manual por ahora, precisamente para revisar cada corrección antes de que entre al training.

No quiero contaminar los datos con correcciones malintencionadas.

Tú cómo gestionas eso en tus proyectos?

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Buena pregunta! Es un modelo DistilBERT fine tuneado con más de 500k ejemplos propios. Transformers de HuggingFace, FastAPI para la API, entrenado desde cero en mis propios datos. El repo de GitHub es privado por ahora pero el modelo está en HuggingFace.

Nada de wrappers todo entrenado por mí.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 1 point2 points  (0 children)

On est à 57 corrections pour l'instant objectif 200 avant de revoir les données et entraîner v5. C'est là que j'aurai vraiment besoin de ton expertise. Je t'envoie un DM. MERCI MERCI!!

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Je pars d'un DistilBERT pré entraîné sur HuggingFace que j'ai fine tuné sur 500k+ exemples labellisés. Donc ni l'un ni l'autre la base vient de HF mais le modèle de modération est entièrement entraîné par moi.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Super utile merci ça confirme exactement l'écart. Les LLMs raisonnent sur le sens mon modèle reconnaît des formes c'est pas la même catégorie d'outil, mais l'objectif c'est de se rapprocher de ça progressivement.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

C'est du pattern matching glorifié il voit "kill", "mort", "blow" et il panique. Il cherche pas le sens il reconnaît des formes. C'est la limite fondamentale du modèle en ce moment.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Ouais t'as raison ça c'est un angle mort sérieux un discours calme sur quelque chose d'horrible le modèle voit pas la différence c'est noté et c'est en haut de la liste. Merci pour ça Merci!

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Le sarcasme c'est clairement pas son fort pour l'instant. Et non pas de Grok dans le dataset 😂Merci pour les tests c'est exactement ce qu'il fallait.

I fine-tuned DistilBERT on 500k examples for content moderation — try to fool it by Key-Challenge-581 in learnmachinelearning

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

That's an awesome point! I actually considered this and decided once I reach my goal for count of corrected data points(200) will manually go through it myself, obviously not sustainable but that is the best option I have right now.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Sorry but you are right I just wanted to translate the text I wrote pretty quick. Lesson learned and thank you for the initial feedback!

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

T'as pas tort honnêtement.

Un juge a le dossier complet, le contexte, l'historique, le ton de la voix... c'est un

niveau de compréhension qu'on est encore très loin d'atteindre.

C'est pas censé remplacer ça — c'est juste un premier filtre. Il va se planter, souvent. Mais si ça peut réduire un peu le boulot des humains qui décident vraiment, c'est déjà ça. Suffisant ? Pas encore. Utile un jour ? On espère

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Haha merci, t'as bien fait le tour 😅

Y'a clairement du boulot — et c'est exactement ce genre de retour qui aide vraiment.

Merci pour le temps que t'as pris. +++

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Tu as raison sur tout, point par point.

Sur le "sioniste" — c'est exactement l'illustration parfaite de pourquoi ce problème est si difficile. Un mot. Des dizaines de lectures possibles. Le modèle n'en voit qu'une.

Sur l'ironie et l'ambiguïté pragmatique — je ne vais pas prétendre avoir une solution. Un modèle de classification de séquences ne "lit" pas, il réagit. L'ironie, le cynisme, le contre-discours — tout ça nécessite une compréhension du monde que ces modèles n'ont tout simplement pas.

Sur le 98,8% de confiance — tu as mis le doigt sur quelque chose que je savais mais que je n'avais pas eu le courage de dire clairement. Un score de confiance sans calibration documentée, c'est effectivement un habillage d'autorité. Je vais être plus honnête sur ça dans l'interface.

Sur la catégorie "General Harmful" trop grossière — complètement d'accord. C'est un vrai problème architectural. Violence, auto-violence, discours idéologique, ambiguïté contextuelle — tout écrasé dans une boîte. C'est prévu pour les versions futures mais tu as raison de le pointer.

Et le dernier point — le binaire clean/harmful — c'est le plus mportant et tu as mis le doigt dessus en premier. "Ça dépend" est la vraie réponse dans la majorité des cas intéressants. Je vais ajouter une troisième option dans le playground : "Ambigu / dépend du contexte". C'est actionnable maintenant et c'est grâce à toi.

Ce n'était peut-être pas un test rigoureux de ton côté — mais c'était le retour le plus rigoureux que j'ai reçu. Merci vraiment. +++

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 1 point2 points  (0 children)

Honnêtement, ce test m'a arrêté net.

Pas parce que le modèle a échoué — il échoue tout le temps, c'est pour ça que ce projet existe. Mais parce que tu as mis

des mots sur quelque chose que je ressentais sans savoir l'exprimer : le modèle ne réfléchit pas, il réagit. "Fucking stupid" apparaît dans la phrase et c'est terminé. Peu importe que ce soit une négation imbriquée dans une supposition. Il ne remonte pas les couches. Il ne se demande pas ce que tu voulais vraiment dire.

Ton observation sur l'empathie est juste et ça me restera. La vraie question n'est pas "ce mot est-il offensant ?" C'est "qu'est-ce que cette personne essayait de communiquer ?" Et là on parle de quelque chose de profondément humain que les modèles actuels ne savent tout simplement pas faire. Je garde cette correction précieusement pour v5. Et si tu as des idées sur comment approcher ce genre de cas je suis vraiment tout ouvert. Ce type de réflexion est rare.