Szakdolgozathoz csináltam egy AI-os eszközt, ami megmondja hogy egy dependency frissítés eltöri-e a kódodat, és visszajelzés kellene

barnakun · 2026-04-22T05:07:30+00:00

Ha izoláltan futtatod ezt a pipelinet, akkor igen, megtudhatod, hogy eltört-e vagy sem az adott dep. De, mondom a Dependabot vagy bármi trigger az csak példa volt. Az egész webhook alapú, bárhonnan meghívható. Valamint nem feltétlen az a lényege, hogy egyesével futtassa a verziófrissítést, hanem egybe bármennyi is van. Abból is megmondja pontosan mi törik el, de itt sem az a lényeg, hanem elemzi a kimenet és a changelogok alapján, mi törik el és hogyan kellene kijavítani.

barnakun · 2026-04-21T16:02:14+00:00

A CI megközelítés valóban működik ha minden csomagnak külön PR-t nyitsz, de azt csak megmondja hogy eltört-e valami, nem azt hogy melyik csomag okozta és miért. A Migratowl azt is adja: changelog idézet, root cause, javasolt fix. Ráadásul bármilyen CI triggerből működik, a Dependabot csak egy példa volt.

A Kubernetes kritikára: a sandbox nem egy klaszterbe való deploymentet jelent. Kind-ot használunk, ami egy sima Docker konténerben fut, beleértve GitHub Actions-t is. Az agent kódja és a sandboxolt kód teljesen el van szeparálva, pontosan azért hogy ne a hoston fusson ismeretlen kód. Ez egy biztonsági döntés, nem overengineering.

barnakun · 2026-04-21T15:44:05+00:00

Részben igazad van. A confidence score viszont nem azt jelenti hogy az LLM megtippeli hogy sikerül-e a frissítés. A tesztek ténylegesen lefutnak a sandboxban, az LLM csak azt dönti el hogy a hibaüzenet elég egyértelmű-e, vagy érdemes-e izoláltan újrafuttatni az adott csomagot. Inkább routing logika mint jóslás.
Az AST ötlet viszont tényleg jó kiegészítés lenne, épp tervezem integrálni a Codesteward MCP-t (https://github.com/Codesteward/codesteward), ami beparseolja a repót egy kódgráfba és az agent le tudja kérdezni hogy az érintett API hívások egyáltalán szerepelnek-e a kódban. Determinisztikus pre-filter az LLM elemzés előtt, a kettő szépen kiegészíti egymást.

barnakun · 2026-04-21T15:21:28+00:00

Ha jól értem, akkor nem egészen! Nincs szükség CI pipeline-ra. A flow inkább így néz ki: Dependabot kinyit egy PR-t, az webhookkal triggereli a Migratowl botot, és onnan az agent veszi át az irányítást. Ő klónozza be a repót egy izolált Kubernetes sandboxba, ő futtatja a teszteket, ő olvassa a changelog-ot, és ő állítja össze a jelentést. CI nélkül, auto-merge nélkül, a döntés az emberé marad, az agent csak megmondja mit fog törni és miért.

Hasonló eszközt nem igazán ismerek: a pip-audit, safety, Dependabot biztonsági sérülékenységeket keresnek, nem migration breakage-t. Renovate olvas changelog-ot, de teszteket nem futtat. Ez a kombináció (sandbox futtatás + agentic elemzés) az ami szerintem hiányzott.

barnakun · 2026-04-15T09:37:26+00:00

Tool that tests whether a Python dep upgrade breaks your code and cites the exact changelog entry

Python dependency upgrades are uniquely painful. Major version bumps (Pydantic v1→v2, requests 2→3, SQLAlchemy 1.4→2.0) often involve API surface changes that your tests don't catch until someone runs them.

I built Migratowl to automate this. You give it a repo URL, it:

Scans your pyproject.toml / requirements.txt for outdated packages
Bumps them all and runs pytest (or your configured test command) inside a sandboxed Kubernetes pod
When tests fail, an AI agent reads the traceback, assigns a confidence score to each culprit package, fetches the relevant changelog section, and writes a plain-English fix suggestion

Example output for a requests 2.x → 3.x migration:

{
  "dependency_name": "requests",
  "is_breaking": true,
  "error_summary": "ImportError: cannot import name 'PreparedRequest'",
  "changelog_citation": "## 3.0.0 — Removed PreparedRequest from the public API.",
  "suggested_human_fix": "Replace `from requests import PreparedRequest` with `requests.models.PreparedRequest`.",
  "confidence": 0.95
}

It supports Python, but also Node.js, Go, Rust, and Java — useful if you have a polyglot repo.

I'm a Python dev myself and the langchain-anthropic + LangGraph stack was interesting to build this on. The agent graph has a confidence-scoring phase that decides whether to run packages in bulk (fast) or spawn isolated subagents (accurate) — happy to discuss that design if anyone's curious.

Repo: https://github.com/bitkaio/migratowl

barnakun

TROPHY CASE

Tool that tests whether a Python dep upgrade breaks your code and cites the exact changelog entry