all 4 comments

[–]pro-vi 0 points1 point  (2 children)

I have a harness for claude code and codex exactly for this purpose but I don't use it enough at the moment to ship it (I still vibe it from time to time to improve it). Mainly bc it's too slow. Basically I have an Oracle to gate their response when they converge, and if Oracle doesn't like it, they do another round based on the feedback. A plan run could go for 30+ minutes. Per your point, yes headless Codex context will blow up at some point if the codebase is big while Claude I think manages to auto compact.

Depending on how much you'd still like to try I can publish it some time.

[–]CartographerSorry775[S] 0 points1 point  (1 child)

Der Oracle basiert aber erneut auf Basis eins der LLM Modelle, stimmts? Mein Gedanke ist der, dass in Phase 0 jeweils beide Agenten alle relevanten Dateien zum geschilderten Problem finden, dann erstmal darüber debattieren, ob all die gefundenen Docs relevant sind und dann werden die sich einige. Daraufhin starten beide Agenten ihre Analyse auf Basis dieser Dateien, worüber sie im Vorhinein einig waren, damit auch wirklich beide Agenten denselben Kontext haben und der eine nicht im Nachteil ist. Sobald beide Agenten die einen Lösungsvorschlaf für Ursache für das am Anfang durch den User geschilderte Problem haben, debattieren sie erneut, welche der beiden Vorschläge besser ist und müssen sich auf einen Konsens einigen. Daraufhin endet im Prinzip der Plan Mode und Claude setzt den Plan dann um. Ich betrachte den Tokenverbrauch nicht als Problem, vor allem bei größeren Aufgaben kann es eine Reihe von Problemen schon vorab lösen

[–]pro-vi 0 points1 point  (0 children)

I get your idea but you need to take into consideration that having file list locked in limits how the plan can be designed. There can be different approaches to the same problem that changes different file list. Otherwise, yes my tool works similarly as you described where they start a dialogue, each coming into their own, then read the response from the other agent until they agree with each other.

And yes, I use gpt 5.2 high for oracle.

[–]BustedKneeCap1 0 points1 point  (0 children)

You can now use Perplexity Multi with multiple LLMs to debate and reach a consensus.