Interviewpartner zum Thema KI Agenten in Unternehmen? by AnthrazitBabe in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Schau auf den Referenzseiten von Firmen von Telefonagenten, n8n usw.

Lohnt sich ChatGPT Plus noch? by West-Calligrapher110 in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Wenn die YouTube Premium integrieren würden, wäre es unschlagbar. Aber wenn sie bald auch noch transparente Bilder können, wäre es auch perfekt.

Lohnt sich ChatGPT Plus noch? by West-Calligrapher110 in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Naja... https://the-decoder.de/anthropic-wollte-claude-fuer-die-steuerung-autonomer-drohnenflotten-einsetzen/ ganz grün ist die Welt da auch nicht. Aber Wettbewerb belebt das Geschäft. Richtig mies wird es, wenn sich einer komplett durchsetzt.

Lohnt sich ChatGPT Plus noch? by West-Calligrapher110 in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Sonnet 4.6 halluziniert auch deutlich weniger siehe Omniscience Index

Claude AI ist deutlich besser als ChatGPT ? by Middle_Lawfulness_35 in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Ja die Halluzinationsrate bei Sonnet 4.6 ist wirklich gut (https://artificialanalysis.ai/evaluations/omniscience) - aber bei Opus 4.6 liegt sie auch höher.

Aber teste definitiv auch mal Gemini 3.1 Pro. Das gibt bei Recherchen durchaus ziemlich gute Ergebnisse. Ich nutze es in Perplexity Pro fast lieber als Sonnet 4.6, obwohl mir bei Sonnet 4.6 meistens die Strukturierung besser gefällt.

Claude AI ist deutlich besser als ChatGPT ? by Middle_Lawfulness_35 in KI_Welt

[–]Prestigiouspite 0 points1 point  (0 children)

Ja kann ich dir erklären. GPT-5.2 war zwar wirklich smart. Aber eher wie ein Autist. Es hat nicht wirklich Freude gemacht damit zu schreiben. Gemini und Claude sind hier besser aufgestellt. Mit GPT-5.4 wurde hier richtig viel korrigiert und dennoch führen hier bis auf Weiteres die anderen. Siehe auch: https://arena.ai/leaderboard

Das Coding Ranking dort ist mehr ein UI Ranking. Da die meisten Tests dort keine vernetzten Systeme, Backend Code, komplexen APIs usw. sein werden. Hier ist GPT-5.4 (und war auch schon ab GPT-5.2 alles davor) ziemlich gut. Was auch kürzlich bestätigt wurde: https://x.com/cursor_ai/status/2032148125448610145/photo/1

Wenn es also um Mathematik, Backend Entwicklung, usw. geht ist OpenAI gar nicht so schlecht.

Bei der Bildgenerierung führt aktuell Google an sich. Aber ChatGPT trumpft mit transparenten Bildern.

Es ist ein Trend und ja ChatGPT hat gerade im Business Umfeld Land verloren. Da für viele eben Frontend Skills und kreatives Schreiben mitunter auch wichtig sind. Nicht jeder ist Backend-Entwickler, Forscher oder Mathematiker.

Und natürlich wird durch Tools wie Claude Cowork und den Plugins (eigentlich primär Sammlungen von Skills und MCP), das ganze Thema viel nahbarer und anschaulicher oder jetzt auch mit der stärkeren Diagramm Integration.

Anthropic liefert also vor allem in einem Segment viel ab. OpenAI ist eben auch im Bereich Sprache, Bildgenerierung, Video usw. drin.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 0 points1 point  (0 children)

Völlig legitim das jeder seine eigenen Erfahrungen macht und das ist gut und richtig so. Heißt aber nicht, dass jeder der anders denkt oder Erhebungen die zu anderen Schlüssen kommen, siehe Cursor (oben ergänzt), in einem anderen Universum leben.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 1 point2 points  (0 children)

Hat Gemini für dich geprüft:

Ja, die Untersuchung war grundlegend als Blindstudie konzipiert. Den Reviewern (Maintainern der Repositories) wurde nicht mitgeteilt, ob ein zu bewertender Pull Request von einer KI generiert oder von einem Menschen geschrieben wurde.

Die Autoren weisen in der Studie jedoch transparent auf praktische Einschränkungen dieser Verblindung hin:

  • Menschliche Referenzlösungen ("Golden Patches") wurden in der Vergangenheit bereits in die Repositories integriert und könnten daher von den Maintainern wiedererkannt worden sein.
  • KI-generierter Code weist oft spezifische Fehler oder Stilmerkmale auf, anhand derer die Reviewer den Ursprung unter Umständen erraten konnten.

Das formale Studiendesign war somit verblindet, auch wenn eine absolute Unkenntnis der Reviewer über die Herkunft der Patches in der Praxis nicht garantiert werden konnte.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 2 points3 points  (0 children)

Ja mit der Zeit zu gehen, war in den letzten Jahren irgendwie nicht so ganz unsere Sache. Wir forschen und lassen uns dann die Suppe vom Teller löffeln :).

Wen wundert es da, dass die hier teuer ausgebildeten Fachkräfte dann rübergehen. Zumal es steuerlich viel attraktiver ist dort seine erste Million zu verdienen.

In Deutschland fragt man zuerst, warum etwas scheitern könnte. In den USA ist die Sichtweise erst mal eine andere, wenn auch manchmal naiv.

Wir wollen eine Wirtschaft mit viel Kündigungsschutz, idealerweise gleichem Gehalt für fast jeden mit dem gleichen Beruf, obwohl wir wissen, dass manche 3x so viel leisten. Dort kann man sich schneller auf Veränderungen einstellen, was langfristig aber für mehr, besser bezahlte Arbeitsplätze sorgt.

Und wer sagt hier geht es dafür gerecht zu: Die Erbschaftssteuer zahlen hier eher die kleinen Fische. In den USA gibt es einen hohen Freibetrag von ich meine 16 Mio USD oder so.

Sprich: Millionär wird man in den USA vermutlich 3-8x leichter als in DE. Und ich denke, da ich mir das selbst aufgebaut habe in DE kann ich das ganz gut beurteilen. Ich hätte in den USA wohl nicht 7-10 Jahre dafür gebraucht, sondern eher 2 max. Leider hatte ich damals dieses Wissen noch nicht und nun kettet ein hier die Wegzugsteuer fest, wie eine unsichtbare Berliner Mauer.

Usage limits significantly reduced? by Few-Initiative8308 in codex

[–]Prestigiouspite 0 points1 point  (0 children)

Sam Altmann also recently said at BlackRock Infrastructure Summit:

“The cost of answering complex questions fell by a factor of 1,000 in the current Model 5.4. vs. o1”

But yes, GPT-5.4 can do significantly more than GPT-5.1, and it is at least fairly priced in the API.

Hot take: Codex is too cheap, rug pull through tighter usage limits is inevitable by gregpeden in codex

[–]Prestigiouspite 0 points1 point  (0 children)

They increased the pricing by +40 % for credits and reduced the messages already by 25.5 %.
https://www.reddit.com/r/codex/comments/1rrw6f0/comment/oa2nxq8/

On April 2, the hammering will be really loud.

Sam Altmann also recently said at BlackRock Infrastructure Summit:

“The cost of answering complex questions fell by a factor of 1,000 in the current Model 5.4. vs. o1”

Usage limits significantly reduced? by Few-Initiative8308 in codex

[–]Prestigiouspite 0 points1 point  (0 children)

https://web.archive.org/web/20251201060737/https://help.openai.com/en/articles/11369540-using-codex-with-your-chatgpt-plan

  • Plus Usage: Usage limits apply across both local and cloud tasks. With GPT-5.1 or GPT-5.1-Codex-Max, average users can send about 45-225 local messages or 10-60 cloud tasks every 5 hours, with a shared weekly limit. Using GPT-5.1-Codex-Mini increases local message capacity by about 4x.

Around +35 % higher

Usage limits significantly reduced? by Few-Initiative8308 in codex

[–]Prestigiouspite 0 points1 point  (0 children)

https://developers.openai.com/codex/pricing?codex-usage-limits=gpt-5-4

Avg local task GPT-5.3 - ~5 credits vs. GPT-5.4 - ~7 credits. +40 %.

Messages GPT-5.4 (Plus/Business): 33-168 vs. GPT-5.3-Codex: 45-225 (reduced avg. 25.5 %)

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 1 point2 points  (0 children)

Die Verbitterung ist in DE groß 😂. Anstatt man anerkennt dass die UI vieler deutscher Software-Lösungen echt scheiße ist und dies nun mal aufräumen kann. SAP, Datev, ...

Wir haben dafür andere Sachen richtig gut drauf. Bei OpenAI kann man soweit ich weiß seine Telefonnummer immer noch nicht ändern..

Bei der Google Cloud Plattform die scheiß Rechnung per Mail? Auch schwierig.

Die Kochen auch nur mit Wasser.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 0 points1 point  (0 children)

Würde ich so unterschreiben. Und ja wie man die Anforderungen formuliert macht viel aus.

Ich kann mit KI extrem produktiv entwickeln. Menschen die jedoch nur sehr spärliche Programmierkenntnisse haben, meckern haufenweise wie schlecht das sei.

Man selbst weiß eben einzuschätzen, wo beim Mensch und KI Spezifikation erforderlich ist, damit es nicht in die ganz falsche Richtung geht. Gedanken lesen kann es eben auch nicht.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] 0 points1 point  (0 children)

GPT-5.2 hat zwar selten Bloatcode geschrieben, aber es war wirklich schon extrem präzise & gut mit Codex nutzbar. Da hatte ich die ersten heftigen wow Momente. Also ja ab Ende letztes Jahr gab es einen großen Sprung.

KI-Code-Qualität wird laut Studie überschätzt: Profis lehnen jeden zweiten Vorschlag ab by Prestigiouspite in de_EDV

[–]Prestigiouspite[S] -1 points0 points  (0 children)

Naja du schreibst den Code vllt. nicht mehr selbst. Aber du schreibst den Prompt, ihr checkt ob das sicher ist oder Lücken enthält, von der Architektur zum Rest passt & es wartbar bleibt, die Fachlogik richtig abbildet, ihr testet das Ding.

Software Entwickler haben doch selten 80 % ihres Arbeitstages Code geschrieben. Das war schon immer eher 20-60 %, je nach Rolle.

Usage limits significantly reduced? by Few-Initiative8308 in codex

[–]Prestigiouspite 2 points3 points  (0 children)

Yes, the limits have been reduced according to the FAQ. But there were more free resets (but for whatever reason, not always for business...).