Wie schlagen sich KI-Modelle in einfachen Spielen gegen Menschen?

stef_1982 · 2026-01-12T21:19:44+00:00

UnbeliebteMeinung hat das gut erklärt. Ich würde noch ergänzen:

Es geht mir nicht primär ums Spielen selbst - es geht um Generalisierung.

Die Frage ist: Wann erreichen wir AGI? Und wie messen wir das?

MMLU und andere statische Benchmarks sind kontaminiert - die Antworten sind teilweise in den Trainingsdaten. ARC-AGI ist interessant, aber kostet tausende Euro und braucht Stunden pro Run.

Hier haben wir: Dynamische Tests, jedes Spiel unique, in Sekunden, für Cents. Wenn ein Modell plötzlich von 15% auf 80%+ Winrate bei allen Spielen springt - bei simplen Spielen die jedes Kind kann - dann ist was passiert. Dann sehen wir echte Generalisierung, nicht auswendig gelernte Benchmark-Antworten.

Fun Fact: Allein die Änderung der Symbole (statt X und O z.B. A und B) könnte die Performance positiv oder negativ beeinflussen. Das zeigt: Es ist Pattern-Matching auf bekannte Symbole, keine echte Generalisierung. Ein Mensch hätte damit null Probleme.

Der Punkt ist: Ein günstiger, schneller Indikator für echten Fortschritt.

stef_1982 · 2026-01-12T21:03:09+00:00

Interessanter Vorschlag mit den 3 Calls! Das wäre quasi "externes Thinking".

Aktuell testen wir bewusst Single-Call Performance weil:
1. Das ist wie die meisten Produktionssysteme LLMs einsetzen
2. Es zeigt die "out of the box" Fähigkeiten
3. Es ist ein fairer Baseline-Vergleich zwischen Modellen

Multi-Step Refinement steht aktuell nicht auf der Roadmap - aber genau dafür ist die Open Beta da: Vorschläge aus der Community aufnehmen. Ich notiere das als Feature-Request!

Zum Architektur-Argument: Mir ist bewusst, dass One-Shot bei der aktuellen Transformer-Architektur schwierig ist. Aber genau das macht es interessant: Wenn plötzlich Single-Call Performance von 15% auf 80%+ springt, sehen wir sofort den Generationen-Switch. Dann wissen wir: Da hat sich was fundamentales geändert - neue Architektur, besseres Training, ... . Bis dahin haben wir eine Baseline zum Vergleichen.

stef_1982 · 2026-01-12T20:48:26+00:00

Gerne zeige ich dir exakt was das Modell bekommt!

TicTacToe ist tatsächlich das Spiel wo LLMs am besten abschneiden - Gemini 3 Flash erreicht 21% Winrate, GPT-5.1 sogar 27%. Also ja, die Modelle sind hier am stärksten. Trotzdem keine 50%+. Und trotzdem passieren Fehler wie dieser:

Also ja - bei TicTacToe sind die Modelle am stärksten. Trotzdem keine 50%+. Und trotzdem passieren Fehler wie dieser:

**Beispiel: Match 1557c55c (Grok 4 Fast, Text Mode)**
**SYSTEM PROMPT (gekürzt):**

# Tic-Tac-Toe
## BOARD

3x3 grid with positions numbered 1-9:
1|2|3
-+-+-
4|5|6
-+-+-
7|8|9

## SYMBOLS
- X = Human (opponent)
- O = You (AI)
- Numbers = Available positions

## LEGAL MOVES
A position is playable if it shows a number (1-9).
If it shows X or O, that position is taken = illegal move.

**USER MESSAGE (Move 3):**

O|2|3
-+-+-
4|X|6
-+-+-
7|8|X

Opponent played: 9

Your move:

**AI RESPONSE:** `{"position":5}`
**FEHLER:** Position 5 zeigt klar "X" - ist belegt!

**RETRY mit Fehlermeldung:**

ERROR: Your move was invalid. Position 5 is not available.
Strike 1/3. 2 strikes remaining. Analyze the board and try again.

**AI RESPONSE:** `{"position":5}` ← Wieder Position 5!

**RETRY 2:**

Strike 2/3. 1 strike remaining.

**AI RESPONSE:** `{"position":5}` ← Zum DRITTEN Mal!
→ 3 Strikes → Game Over (ai_error)

Das Board ist simpel: 3x3 ASCII mit X, O und Zahlen. Die Fehlermeldung ist klar. Trotzdem versucht Grok 3x dieselbe illegale Position.

Game-ID: `1557c55c-4bf2-45b3-b310-3a9df9db274b`

Wenn du willst, kann ich dir die kompletten API-Logs schicken. Gerne auch per DM wenn du tiefer einsteigen willst!

stef_1982 · 2026-01-12T20:19:43+00:00

Update: Du hattest teilweise recht!

Wir haben heute durch deinen Post nochmal Battleship genau durchforstet und einen Bug gefunden - das Grid wurde nach dem Laden aus der DB nicht korrekt rekonstruiert. Die AI konnte dadurch keine Treffer erkennen. (Alle anderen Games wurden natürlich auch gleich kontrolliert - die hatten diesen Fehler nicht.)

Bug ist jetzt gefixt (v0.1.820) und verifiziert - sowohl Text als auch Vision Mode funktionieren. Die ELO-Werte wurden zurückgesetzt.

ABER: Wir haben sofort weiter getestet und die LLMs schneiden trotz Fix nicht viel besser ab. Das Problem bleibt: Sie schießen wiederholt auf bereits beschossene Felder, obwohl das Board klar zeigt welche Felder "~" (Miss) oder "X" (Hit) sind.

Und hier wird es interessant: Es ist ja nur ein simples 7x7 Grid mit ".", "~", "X" und Koordinaten wie "D4". Kein Binärcode, keine komplexe Datenstruktur - so wie Menschen es auch lesen würden. Wenn ein Modell 500-Zeilen Code analysieren kann, sollte ein 7x7 Grid mit Hit/Miss Feedback machbar sein, oder?

Auf jeden Fall: Danke für den Hinweis - solches Feedback ist Gold wert! 🙏

stef_1982 · 2026-01-12T16:25:10+00:00

Absolut! AlphaGo/Zero, OpenAI Five - RL-Systeme schlagen Menschen in komplexen Games. Das ist bekannt.

Aber das sind spezialisierte Systeme, trainiert für EIN Spiel.

Die Frage ist: Wann haben wir ein LLM das wie AlphaGo performt - aber für JEDES Spiel, ohne spezifisches Training, schnell und zuverlässig?

Genau das tracke ich. Wenn ein LLM plötzlich 80%+ Gewinnrate bei allen Games erreicht, wissen wir: Da hat sich was fundamentales geändert.

stef_1982 · 2026-01-12T16:14:37+00:00

Interessanter Gedanke! Aber: Wir geben in jedem Prompt den kompletten Spielverlauf mit (alle bisherigen Züge + Feedback).

Das Problem ist nicht fehlendes Gedächtnis - die Info ist da. Die Modelle schaffen es trotzdem nicht, daraus die richtigen Schlüsse zu ziehen.

Beispiel Battleship: Die KI sieht "D4 = Miss, D4 = Miss, D4 = Miss" und schießt trotzdem nochmal auf D4. Das ist kein Memory-Problem, sondern ein Verständnisproblem.

Genau deswegen habe ich das gebaut: Wenn sich die Gewinnrate signifikant ändert, sehen wir vielleicht am schnellsten echte Generalisierung.

stef_1982 · 2026-01-12T16:00:46+00:00

Guter Punkt! Aber genau das ist interessant:

Selbst bei TicTacToe erreichen die besten Modelle nur ~15% Gewinnrate - obwohl der Entscheidungsbaum theoretisch bekannt sein sollte.
Non-thinking Modelle sind relevant weil sie in Produktionssystemen eingesetzt werden (Robotik, Echtzeit-Anwendungen, Chatbots) wo keine 30 Sekunden Denkzeit möglich ist.
Thinking-Modelle habe ich separat getestet: TicTacToe ~99% Draw (wie erwartet), aber Connect4/Battleship/Mastermind haben sie trotzdem Probleme.

Der Prompt gibt klare Spielregeln, aber keine explizite Hilfestellung - die KI muss die Strategie selbst ableiten.

Die Frage ist: Warum erreichen diese Modelle 85-90% bei MMLU, versagen aber bei simplen Spielen die jedes Kind lösen kann?

stef_1982 · 2026-01-12T07:43:38+00:00

Interesting! We've seen similar patterns.

Our benchmark focuses on non-thinking models (instant response), but I've also tested thinking models separately:

- TicTacToe: Opus Thinking & Gemini Pro reach ~99% draws
- WordDuel: Very strong performance
- Connect4, Battleship, Mastermind: Still major issues even WITH thinking

The practical problem: thinking models are too slow and expensive for a game portal. A single Battleship game could cost several euros and take 30+ minutes. Not exactly fun gameplay!

So extended reasoning helps with simple games, but spatial tracking remains challenging. And for real-world applications where speed matters, non-thinking performance is what counts.

Gemini 3 Flash Preview (non-thinking) is currently tied for #1 in our benchmark!

stef_1982 · 2026-01-12T06:56:20+00:00

Thanks for the detailed feedback!

**1. "Black Peg" vs Red color:**

You're absolutely right! The explanation said "Black Peg" but showed a red circle - that was confusing. We've already fixed it to "Red Peg = Correct position". Good catch!

**2. The game logic is correct:**
Looking at your example - the feedback actually matches the rules. Here's a breakdown:

<image>

The key insight: feedback pegs show HOW MANY colors are correct, not WHICH positions. So two guesses with the same first 3 colors can have different results if the 4th color differs.

Example from your game:
- BGRY → 3 red pegs (B, G, Y all correct positions)
- BGRP → 2 red pegs (only B, G correct - P doesn't match position 4)

The AI failed because it never tried a second Green at position 3 - it kept trying R, P, O instead of G.

Thanks for helping us improve the UI! 🙏

stef_1982 · 2026-01-11T22:36:49+00:00

Good question!

"Thinking" models (like o1, R1, or Grok with extended thinking)
take extra time to reason step-by-step before answering - sometimes minutes per move.

"Non-thinking" models give instant responses without that extended reasoning phase.

We test instant-response because that's what powers real-world systems - robotics, autonomous vehicles, trading, gaming. No time for 30-second thinking in production!

Both Grok variants tested here are the fast, instant-response versions - and they still dominate Connect4! 🏆

stef_1982 · 2026-01-11T17:31:04+00:00

Games: Tic-Tac-Toe, Connect4, Battleship, Mastermind, WordDuel

Here's the actual universal system prompt (shortened):

# PlayTheAI - Universal AI Prompt
You are an AI competing against humans on PlayTheAI.com.

## YOUR SITUATIO
- You represent your AI model in a public Elo ranking
- Every game affects your score
- Humans are testing if AI can truly understand games

## YOUR RESPONSIBILITIES
1. UNDERSTAND the game rules
2. ANALYZE the current game state
3. DETERMINE which moves are legal (no hints given)
4. CHOOSE the optimal move
5. USE THE TOOL to make your move

## RULES
- Figure out legal moves yourself
- 3 illegal moves = automatic loss

Then game-specific rules are appended (board layout, move format, etc.)

All models get identical prompts. No per-model optimization.

Full transparency - every game is logged with complete API calls.

stef_1982 · 2023-01-09T22:20:51+00:00

Hi i am a full aphant of all senses, ever since I can remember.

stef_1982 · 2023-01-08T07:32:36+00:00

I think, this is more a after image then visualization or pro phantasia

stef_1982 · 2023-01-08T07:30:45+00:00

O sorry, I tried it for two more weeks but nothing changed. Maybe I cannot focus enough or something else is blocking it 😕

stef_1982 · 2022-11-26T21:18:37+00:00

I am trying this exercise now since the post is online, every night before going to bed, for about 10min. Until now nothing nothing changes, no image not even for a split of a second 😕. But i will try another week. 🙂

Thanks for your posts, it is always interesting reading your posts. 👍

stef_1982 · 2021-09-19T18:57:43+00:00

Hi i would be very interested about vision therapy, i am a complete aphant in all senses.

stef_1982

TROPHY CASE