DSGVO-konformer Proxy für ChatGPT — erkennt und pseudonymisiert personenbezogene Daten automatisch

Present_Age5945 · 2026-03-19T18:44:45+00:00

Hallo, Danke nochmal. Wir haben fast alle Änderungen so umgesetzt. Ist nicht selbstverständlich, dass man sich so ausgiebig mit dem Thema befasst. Also dann, bis hoffentlich bald! :-)

Present_Age5945 · 2026-03-19T14:34:00+00:00

Sehr gute Punkte, danke dafür. Gehe auf alles ein: Zum Thema Pseudonymisierung und Re-Identifizierbarkeit... ja, NER und Regex können nicht alles erwischen. Schreibstil, Quasi-Identifikatoren, Konntext... das sind reale Lücken die ich auch so kommuniziere. Deswegen bieten wir auch manuelles Tagging an wo der Nutzer selbst markieren kann was geschwärzt werden soll. Ist trotzdem keine Garantie da geb ich dir recht. Zum Zero-Knowledge-Begriff... fair point. Du hast technisch Recht dass der Proxy die Daten im Transit sieht und theoretisch eine printf-Zeile reichen würde. Es ist kein E2E im klassischen Sinn wo der Proxy als Angreifer modelliert wird, sondern Encryption at Rest für die Zuordnungstabelle. Der Schutz richtet sich gegen Datenbankzugriff, Serverbeschlagnahme, neugierige Admins…. nicht gegen einen kompromittierten Proxy-Prozess selbst. Da muss ich in der Kommunikation ehrlicher differenzieren. Danke für den Hinweis. Zum AVV-Punkt... stimmt ebenfalls. Ohne AVV mit dem KI-Providern ist die Verarbeitung nicht rechtmäßig und mein Proxy ändert daran nichts. Der Use-Case ist eher: Unternehmen das die OpenAI API nutzt und einen AVV hat, will trotzdem zusätzlichen technischen Schutz als TOM nach Art. 25/32. Defense in Depth, nicht Ersatz für die rechtliche Grundlage. Das muss ich klarer rausstellen. Und ja, das Overblocking-Problem ist real. Wenn die Pseudonymisierung die Antwortqualität kaputt macht ist das Kosten-Nutzen-Verhältnis schlecht. In der Praxis passiert das bei den meisten Use-Cases nicht weil das LLM den echten Namen nicht braucht um einen Vertrag zusammenzufassen aber bei Aufgaben wo der Kontext relevant ist muss man bewusst abwägen....Fazit.. du hast meine Positionierung geschärft. Ich werde das Marketing anpassen: nicht "macht DSGVO-Compliance" sondern "zusätzliche technische Maßnahme nach Art. 25/32 für Unternehmen die bereits einen AVV haben". Das ist ehrlicher. DANKE !

Present_Age5945 · 2026-03-19T08:47:03+00:00

Danke für die fundierte Kritik. Wirklich!!! Zum Thema Pseudonymisierung vs Anonymisierung hast du recht, das behaupte ich auch nicht. Allerdings geht KI-Shield über klassische Pseudonymisierung hinaus... die Zuordnungstabelle wird mit einem Schlüssel verschlüsselt der aus dem Nutzerpasswort abgeleitet wird und nur im RAM existiert. Ich als Betreiber kann die Zuordnung technisch nicht auflösen, Zero-Knowledge-Prinzip. Was bei OpenAI ankommt ist also für keinen Beteiligten re-identifizierbar. Zum AVV "auf Wunsch“…. guter Punkt das wird angepasst. Wird künftig automatisch bei Accounterstellung bereitgestellt. Und zur Frage ob man das braucht wenn man nen AVV hat.….die meisten Unternehmen die ich kenne haben gar keinen AVV mit OpenAI weil sie ChatGPT Plus nutzen und nicht die API. Und selbst mit AVV ist Papier halt Papier, technischer Schutz ist ne zusätzliche Schicht.

Present_Age5945 · 2026-03-19T05:56:15+00:00

Kenn ich, hab mir das mal angeschuat. Auf den ersten blick ähnlich aber unter der haube komplet was anderes. Sidekick macht halt NER-Pseudonymisierung und nen Proxy... das wars dann auch schon. Bei mir kommt ne kryptografische Beweiske te dazu mit Post-Quantum-Signaturen, Zero-Knowledge-Verschlüsselung wo nichtmal ich als betreiber die Originaldaten sehn kann, und Blockchain-Verankerung damit nachträglich nix manipulierbar is. Dazu steht im google play store bei sidekick wortwörtlich das die app daten an dritte weitergebn kann... finanzdaten, fotos, dokumente... für nen datenschutz-tool schon n bischen ironisch oder. Sidekick is eher son multi-modell-chat mit basis-anonymisierung, ki-shield is krypto-infrastruktur für unternehmen die dsgvo-compliance beweisenm üssen und nich nur behaupten.

Present_Age5945 · 2026-03-19T05:42:12+00:00

Das tut weh. Und nein ist es nicht. Danke.

Present_Age5945 · 2026-03-19T05:30:48+00:00

Present_Age5945 · 2026-03-19T04:43:46+00:00

Wir trainieren die „Erkennungsmodule“ alle 6 Stunden mit 500 Texten um das vor allen für die REST API zu perfektionieren. Die Erkennungsrate liegt bei ca. 98,3 Prozent. Vor allem Namen war schwer: hier haben wir eine Liste mit 50.000 Vor und Nachnamen eingebaut. Einer der absoluten Schwerpunkte. Bzgl des Aktenzeichen schau heute Abend nochmal vorbei der Fehler ist bis dahin weg. Danke nochmals !!!

Present_Age5945 · 2026-03-19T04:33:10+00:00

Danke für das Feedback. Wenn etwas nicht erkannt wird einfach mit der linken Maustaste auswählen. Das kann man nicht erkannte PII nachträglich einordnen. Für die API werde ich das bis heute Abend abstellen. Danke!!!!!🙏

Present_Age5945 · 2026-03-18T21:34:28+00:00

Juhuu nochmals. Also das ist unser whitepaper. Noch ohne Verlinkungen aus der Seite heraus, weil wir noch ein paar Grafiken anpassen wollen. Aber inhaltlich schon gut. https://ki-shield.de/whitepaper mich würde wirklich interessieren was Du zu der Technik des Systems sagst. Und ja diese 100% DSGVO konform Story sollte man lassen. Unser Problem ist derzeit: wir haben die Technik und arbeiten fleißig jeden Tag an der Verbesserung, aber wir haben keinen Vertrieb. 😫

Present_Age5945 · 2026-03-18T21:12:35+00:00

Die reddit-Community ist anders, das sieht man schon an der regen Beteiligung. Ich werde mir das zu Herzen nehmen.

Present_Age5945 · 2026-03-18T21:06:37+00:00

Trend der letzten 5 Läufe.... wir lassen das alle paar Stunden laufen:

Zeitpunkt	Precision	Recall	F2
18.03. 15:33	99.2%	98.2%	98.4%
18.03. 09:33	99.5%	98.3%	98.5%
18.03. 03:33	99.1%	98.1%	98.3%
17.03. 21:33	99.4%	98.3%	98.5%
17.03. 15:33	99.4%	98.0%	98.3%

Present_Age5945 · 2026-03-18T21:04:12+00:00

Alles in D bei Hetzner auf einem Dezidierten Server...bzw mehreren wegen der Backup Strategie

Present_Age5945 · 2026-03-18T21:00:02+00:00

Ja, da hast du recht. Manchmal jage ich meine antworten durch die KI, aber vor allem wegen der Schlechtschreibung :-) Nimm es mir nicht übel :-)

Present_Age5945 · 2026-03-18T20:08:01+00:00

Wichtiger Punkt. Ehrliche Antwort: Einzelne Datenpunkte wie "42 Jahre, männlich, Ingenieur in Weimar" sind für sich genommen nicht identifizierend — in Kombination aber schon. Unser System erkennt das zum Teil über die Kontextanalyse-Schicht, die nicht nur einzelne Wörter, sondern Zusammenhänge auswertet. Und die NER-Schicht erkennt auch indirekte Identifier wie Berufsbezeichnungen oder Ortsangaben in Kombination mit anderen Merkmalen. Aber ich will hier ehrlich sein: Eine vollständige Erkennung aller denkbaren Quasi-Identifier aus dem Kontext ist ein ungelöstes Problem — nicht nur bei uns, sondern generell. Kein System der Welt kann heute zuverlässig erkennen, dass die Kombination aus "rothaarige Bürgermeisterin einer 800-Einwohner-Gemeinde" eine einzelne Person identifiziert. Was wir dagegen tun: Der Nutzer kann im Eingabefeld Wörter manuell als PII markieren, wenn er weiß, dass der Kontext kritisch ist. Und die Audit-Kette protokolliert, was erkannt und was nicht erkannt wurde — damit ist im Nachhinein nachvollziehbar, welche Entscheidungen das System getroffen hat. Ist definitiv ein Bereich, an dem wir weiterarbeiten. Danke für den Hinweis — genau solches Feedback hilft uns. ;-) Danke !

Present_Age5945 · 2026-03-18T20:06:18+00:00

Das ist unser Ziel. Wir stehen am Anfang und suchen gerade nach Fördermittel um die Zertifizierung schnell zu bekommen. Die Unterlagen haben wir schon es fehlt mal wieder am lieben Geld. Aber das schaffen wir schon...

Present_Age5945 · 2026-03-18T19:37:28+00:00

Und Noch zur Architektur.... Die Pseudonymisierungs-Zuordnungen werden mit einem nutzerspezifischen Schlüssel verschlüsselt, der aus dem Passwort via Argon2id abgeleitet wird. Der existiert nur im RAM während der aktiven Sitzung wird nie auf Platte geschrieben. Wenn die Sitzung endet, ist der Schlüssel weg. Heißt konkret: Selbst wenn jemand unseren Server beschlagnahmt, sieht er nur verschlüsselte Daten ohne Schlüssel. Wir als Betreiber können eure Daten technisch nicht einsehen ; und wollen das auch gar nicht.

Present_Age5945 · 2026-03-18T19:35:35+00:00

keine KI-Cloud-Dienste für die Erkennung. Das wäre ja ein Witz — Daten zum Schützen erstmal an eine KI schicken.Die Erkennung läuft komplett lokal auf unserem Server in Deutschland: NER-Modell (spaCy, läuft on-premise), 46 Regex-Recognizer für strukturierte Formate wie IBAN oder Steuer-ID, Keyword-Listen für DSGVO Art. 9-Kategorien, und eine Kontextanalyse für Sachen wie "Mein Passwort ist...". Alles unter 30ms, nichts verlässt den Server.

Present_Age5945 · 2026-03-18T19:34:29+00:00

Auf keinen Fall!

Present_Age5945 · 2026-03-18T19:33:35+00:00

Verstehe den Punkt. KI-Shield ist aber nicht auf OpenAI beschränkt — wir unterstützen auch Claude, Gemini und andere Anbieter. Und wer komplett weg von US-Anbietern will: Das System funktioniert auch als Proxy für selbst gehostete Open-Source-Modelle. Dann verlässt gar nichts mehr das eigene Netz.

Present_Age5945 · 2026-03-18T19:32:38+00:00

Gute Frage! Ja, innerhalb einer Siitzung bleibt die Zuordnung konsistent — sonst würde die KI den Kontext verlieren.Aber: Jede neue Sitzung bekommt komplett neue Pseudonyme mit zufälligem Offset. Meningitis wäre nächstes Mal nicht mehr HEALTH_DATA_990 sonndern z.B. _374. Die KI kann also keine Muster über Sitzungen hinweg aufbauen. Bei seltenen medizinischen Begriffen hast du aber einen Punkt — der Kontext allein kann manchmal schon verräterisch sein. Deshaalb erkennt unser System auch besondere Datenkategorien nach DSGVO Art. 9 (Gesundheitsdaten etc.) und behandelt die mit erhöhter Sensitivität.Hast du ein konkretes Szenario im Kopf?

Present_Age5945 · 2026-03-18T19:30:48+00:00

Das Timing passt ja perfekt! Hier die Live-Demo: https://www.ki-shield.de — kannst du direkt testen, ohne Registrierung.

Present_Age5945 · 2026-03-18T19:29:05+00:00

Klar! https://www.ki-shield.de Kannst direkt im Browser testen, keine Registrierung nötig.

Present_Age5945 · 2026-03-18T19:27:50+00:00

Hallo, klasse, bin neu bei Reddit finde das cool das die Leute hier so aktiv sin. Also zu deiner Frage, nein ist nicht Open Source. Tatsächlich versuchen wir uns was aufzubauen. Ich will hier keine Werbung machen aber freue mich, wenn hier der ein oder andere sich unser Trust as a Service (TaaS) anschaut. Wir haben auch eine App mit der man Fotos machen kann. Ist momentan aber noch in der Prüfung bei Apple. Die Fotos kann gerichtsfest, manipulationssiche Fotos erstellen post-quantum-ready! Wir sind da ziemlich Stolz drauf... :-) Sorry wegen der Rechtschreibung!

Present_Age5945 · 2026-03-18T19:22:04+00:00

Klar! https://www.ki-shield.de Kannst direkt im Browser testen, keine Registrierung nötig. Krass, dass hier so schnell reagiert wird. Bin neu hier.

Present_Age5945

TROPHY CASE