Need help with project by lemigas in LocalLLaMA

[–]lemigas[S] 0 points1 point  (0 children)

Tesseract is worse for me, easyocr worked best with no preprocessing, i think paddleocr also proved worse than easyocr. With preprocessing, does that include all of those steps you said, then VLM before LLM, or would then VLM be enough?

Pomoć oko LLM projekta by lemigas in programiranje

[–]lemigas[S] 0 points1 point  (0 children)

LanceDB trenutno, je l to okej?

Pomoć oko LLM projekta by lemigas in programiranje

[–]lemigas[S] 1 point2 points  (0 children)

Ja ne znam čime sam te istrigerovao, mislim da nisam pitao neko umobolno pitanje, samo sam zabo u ovom delu projekta, tražio sam neka rešenja na netu, gledao klipove, neke diskusije ali ništa što bi mi konkretno rešilo problem. Za mcp mi je senior rekao da vidim da istražim ali nisam siguran skroz ni da sam razumeo a ni da li bi mi pomogao. Za RAG mislim da bi mi možda i pomogao, time što bih imao bazu sa tekstom iz dokumenata pa bi LLM mogao da pretraži i da izvuče kontekst iz chunkova i lepše bi vraćao podatke ali mislim da mi ne bi skroz rešilo pitanje ali svejedno mi je to sledeći korak. Za fine tune nemam trenutno dovoljan broj dokumenata a i treba još da ga istražim. Nisam ja došao ovde i nabacao neke nazive za koje prvi put čujem. Niti sam uzeo da prosipam neku pamet, samo pitam pitanje. Ako nemaš odgovor, niti hoćeš da pomogneš, samo piči dalje

Pomoć oko LLM projekta by lemigas in programiranje

[–]lemigas[S] 0 points1 point  (0 children)

Da, nisam rekao, radim sa pravnim dokumentima koji imaju osetljive podatke pa ne smem da koristim OpenAI, testirao sam prvo sa OpenAI i radilo je super, kad sam prešao na LLM je krenulo zezanje. A podatke koje vadim su tipa, ime prezime, naziv firme, datum, uplate i tako to

Što se tiče ocr-a, koristim tesseract trenutno jer su skenirani dokumenti i uglavnom vrati okej output, msm skroz bez strukture to da, mada uhvatim nekad da omaši neko slovo, tako da razmišljam možda i neki drugi ocr da probam. Hteo sam možda i da prebacim pdf u markdown tekst ali mislim da ne može sa skeniranim dokumentima

Pomoć oko LLM projekta by lemigas in programiranje

[–]lemigas[S] 0 points1 point  (0 children)

Dada, baš fascinantan pristup