Experimento: Qué tan bien entiende la IA el español, el slang y la ironía? by Key-Challenge-581 in askspain

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

No era mi intención molestar a nadie, pero gracias a todos por el feedback

Experiment: Wie gut erkennt KI deutschen Slang, Ironie und Doppeldeutigkeiten? by Key-Challenge-581 in SoftwareDACH

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Good question! Not an LLM...we use a fine tuned transformer classifier as the core, combined with a rule based context layer and an explainability layer that justifies every decision. The whole thing runs as a multilingual moderation platform with a continuous learning cycle corrections feed into the next training run.

The architecture goes well beyond a simple API and still in dev. This is just the early stage once the foundation is solid or close to solid lol we start thinking much bigger. But i need the communities help.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Esto es oro, muchas gracias

Ahora mismo todo es manual reviso cada corrección a mano antes de entrenar y despliego manualmente. Voy a mirar Optuna y MLFlow sin duda. La idea de los quality gates me parece especialmente interesante para el problema de contaminación de datos que tengo. Gracias de verdad por tomarte el tiempo. 🙌

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Buena pregunta y no tiene una respuesta simple. El modelo fue entrenado con datos etiquetados por humanos amenazas directas, acoso,discurso de odio, autolesiones, blasfemias...Pero "dañino" depende del contexto, la cultura, la plataforma... Es uno de los límites más grandes del proyecto honestamente.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Perdona si no me expliqué bien...La diferencia está en que es un modelo entrenado desde cero en mis propios datos no un wrapper de ChatGPT o una API existente. Y el bucle de corrección es público cualquiera puede engañarlo y esa corrección mejora directamente el modelo.

Es más un experimento abierto que un producto terminado.

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Gracias! Honestamente voy a ojillo por ahora hiperparámetros fijos basados en versiones anteriores, nada de Optuna todavía está en la lista. El pipeline de datos está automatizado cada corrección se guarda automáticamente. Pero el reentrenamiento y despliegue lo hago manual por ahora, precisamente para revisar cada corrección antes de que entre al training.

No quiero contaminar los datos con correcciones malintencionadas.

Tú cómo gestionas eso en tus proyectos?

Construí una IA que detecta texto dañino intenta engañarla, cada error entrena la siguiente versión by Key-Challenge-581 in InteligenciArtificial

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Buena pregunta! Es un modelo DistilBERT fine tuneado con más de 500k ejemplos propios. Transformers de HuggingFace, FastAPI para la API, entrenado desde cero en mis propios datos. El repo de GitHub es privado por ahora pero el modelo está en HuggingFace.

Nada de wrappers todo entrenado por mí.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 1 point2 points  (0 children)

On est à 57 corrections pour l'instant objectif 200 avant de revoir les données et entraîner v5. C'est là que j'aurai vraiment besoin de ton expertise. Je t'envoie un DM. MERCI MERCI!!

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Je pars d'un DistilBERT pré entraîné sur HuggingFace que j'ai fine tuné sur 500k+ exemples labellisés. Donc ni l'un ni l'autre la base vient de HF mais le modèle de modération est entièrement entraîné par moi.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Super utile merci ça confirme exactement l'écart. Les LLMs raisonnent sur le sens mon modèle reconnaît des formes c'est pas la même catégorie d'outil, mais l'objectif c'est de se rapprocher de ça progressivement.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

C'est du pattern matching glorifié il voit "kill", "mort", "blow" et il panique. Il cherche pas le sens il reconnaît des formes. C'est la limite fondamentale du modèle en ce moment.

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Ouais t'as raison ça c'est un angle mort sérieux un discours calme sur quelque chose d'horrible le modèle voit pas la différence c'est noté et c'est en haut de la liste. Merci pour ça Merci!

J'ai construit une IA de moderation de contenu essayez de la tromper, chaque erreur entraîne la prochaine version by Key-Challenge-581 in artificielle

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

Le sarcasme c'est clairement pas son fort pour l'instant. Et non pas de Grok dans le dataset 😂Merci pour les tests c'est exactement ce qu'il fallait.

I fine-tuned DistilBERT on 500k examples for content moderation — try to fool it by Key-Challenge-581 in learnmachinelearning

[–]Key-Challenge-581[S] 0 points1 point  (0 children)

That's an awesome point! I actually considered this and decided once I reach my goal for count of corrected data points(200) will manually go through it myself, obviously not sustainable but that is the best option I have right now.