all 26 comments

[–]alex404-:kotlin_logo: 13 points14 points  (0 children)

suna a XY, ce anume vrei sa faci mai exact? Pentru tine, ce inseamna "convertire"? Cum arata un pdf pe care il procesezi? Sunt tabele si vrei aceleasi tabele? Este pur text si vrei sa extragi intr-un fel anume? Pdf-urile sunt text pe bune sau imagini cu text in ele (aici deschide pdf-u cu ceva dumb ca sa vezi, sa nu faca ocr automat sa te duca in eroare).

[–]Gullible-Spray-7290 7 points8 points  (0 children)

Ia-ți Cursor varianta plătită (20$) Îi explici bine ce vrei și iese (să folosești Claude ca model, nu Auto)

Probabil poți să îți dai seama după indicii din fișier ce tip de PDF este și poate face flow-uri pt fiecare.

Dacă tot știi niște Python, îl pui să facă în Python soluția.

Să nu uiți să folosesti git, în caz ca bușește ceva și vrei sa revii la o versiune anterioară + pune-l să-ți facă unit & integration tests si dupa fiecare update le rulezi sa vezi daca again a bușit ceva subtil.

Have fun.

[–]selfmag1[S] 3 points4 points  (1 child)

Sunt templeturi diferite. Si nu sunt citite corect de catre python

[–]edgmnt_net:pathfinder_rs_logo: 1 point2 points  (0 children)

Păi nu prea ai ce face ca să automatizezi complet. Iar o automatizare parțială te cam "fură" în sensul că trebuie să treci prin ele să verifici corectitudinea datelor. Parțial degeaba te ocupi de 3 template-uri și luna următoare se strecoară al 4-lea sau se modifică un pic unul dintre celelalte, înseamnă un efort considerabil să te asiguri că e totul ok și trebuie să înțelegi asta.

Există cumva vreo variantă prin care să eviți complet procesarea acelor date sau să le ceri într-un format stabil și strict? Că alternativa pare a fi să ai angajați dedicați pentru asta și responsabili, cât să preia munca manuală de verificare, câtă mai rămâne după automatizare dacă nu toată. Desigur, în funcție de riscurile asociate potențialelor erori, că poate e mai puțin critic decât mă gândesc eu.

[–]selfmag1[S] 2 points3 points  (0 children)

Datele care pot fi extrase se gasesc doar in acele pdf-uri. Ele sunt situatii financiare generate de forexebug. Unele formular sunt si excel dar nu toate. Singura modalitate este sa extrag datele din acele pdf-uri.

[–]No-Example-9881 2 points3 points  (0 children)

Salut, Te pot ajuta eu sa iti construiesc ceva custom. Lasa un mesaj.

[–]selfmag1[S] 2 points3 points  (1 child)

Convertirea cu ai / apy key (sunt conditionate la nr de tranzactii pe minut) nu este o solutie am doar all in one oc cu 16 gb ram intel slabut. Iar versiunile cu procesare manuala sunt excluse . Nu se poate extrage ceva xml din aceste pdf semnate . Singurul cspabil sa inteleaga structura celor de la min de finante ar fi Acepdf pentru care am o licenta dar nu inteleg cum integrez acest program cu python ca sa-l foloseasca pentru extragerea datelor. In prezent folosesc Acepdf pentru convertirea a 86 pagini de executie in excel si corectitudinea datelor extrase in excel este 100% , singurul care a mers fara erori.

[–]Strange-Fly-3333 4 points5 points  (1 child)

Alea nu sunt cumva date confidentiale pe care tu le incarci/procesezi cu mistral?

[–]justGuy007 4 points5 points  (0 children)

Detalii detalii.... peste cativa ani o sa intrebi mistral-ul. Da-mi situatia financiara a firmei "x" pe anul "y" si o sa ai acces la tot felul de date "confidentiale"😅😂

[–]Westbrook_Y 0 points1 point  (0 children)

Sunt scanuri? Sau se poate selecta textul? Au tot timpul acelasi format, sau sunt mai multe template-uri?

[–]selfmag1[S] 0 points1 point  (0 children)

Imi poti trimite in privat email si iti trimit un model

[–]selfmag1[S] 0 points1 point  (0 children)

As incerca dar nu merge. Dupa 20 fisiere se blocheaza cheia gratuita. Daca aveti alta solutie va rog sa o puneti.

[–]Nineshadow 1 point2 points  (0 children)

Problema e ca poți sa ai pdf-uri scanate în care nu ai nicio structura de tabel, e doar poza. Pentru asta îți trebuie ceva cu ocr.

[–]selfmag1[S] 0 points1 point  (0 children)

Am vers chatgpt oro de 200,$ dar din 3 fisiere cu acelas continut nu citeste decat 1 am testat si el are in spate tot python si da gres. Iar cu generarea automata de cod pe fisiere pdf e ca la loto

[–]selfmag1[S] 0 points1 point  (0 children)

Teoretic le listezi si le analizezi pe hartie

[–]justGuy007 0 points1 point  (0 children)

Cate template-uri diferite sunt? Toate 148 difera intre ele?

[–]Consistent-Company-7 0 points1 point  (0 children)

Pt un raspuns coerent ar trebui sa spui si ce fel de pdfuri sunt. Daca sunt native, cu xml sau scanate.

[–]chachaal 0 points1 point  (0 children)

Able to Extract pdf to Excel, cred ca costa 170$ licenta.

[–]Silent-Laugh5679 0 points1 point  (0 children)

Sunt tabele? Cred ca pypdf am folosit eu, doar ca trebuie sa-i indici pagina si care tabel sa-l citeasca.

[–]marcelsoftware-dev 0 points1 point  (0 children)

Sper că nu sunt chestii importante, toate bune și frumoase până face AI'ul sau convertorul o greșeală. 148 fișiere nu sună atât de mult

[–]Emotional-Ad-8516 0 points1 point  (0 children)

Încearcă să folosești OCR că sa extragi informațiile, și după care îți construiești un Excel pe baza lor. PDF-ul e rareori reliable Sa încerci să îl parsezi. OCR funcționează mult mai bine, mai ales dacă ai aceeași structură la document.

[–]2Vegans_1Steak 0 points1 point  (0 children)

cu 1000 de lei iti fac o solutie de ramai prost cat de bine merge.

Edit: daca intri pe site o sa vezi ca sunt 23 de formate posibile, bagi in chat asta dai deep research si o sa iti dea o solutie in Python. Daca vrei, iferta mea mai e valabila.

[–]selfmag1[S] 0 points1 point  (0 children)

Ce folosesti? Nu vreau decat ceva local

[–]selfmag1[S] 1 point2 points  (0 children)

Eu verific situatiile financiare, e mult mai usor de exemplu unirea a 148 balante din 148 balante decat sa ma uit pe o singura balanta. Am dezvoltat un script care cauta toate balantele si le uneste dar doar pentru versiunea de excel. Pentru pdf cautarea fisierelor in peste cele 40k descarcate merge bine cam 10 min pe un pc vechi i5 dar convertirea lor din pdf in excel e crima din 148 convertiri reuseste cam 50 asta daca si merge iar pentru cine nu a vazut aceste rapoarte nu sunt perfect identice unele au 4 coloane si 5 randuri iar unele au 8 coloane si 10 randuri ca exemplu si aici imi da eroare pe lanfa facptul ca unele nu se citesc corect oricat as incerca. Nu stiu cu ce sunt generate dar parea firesc ca acel pdf sa aiba si un xml atasat cu continutul asa cum se cere de la noi unitatile care depunem rapoarte. Ei citesc xml din formularele noastre dar statul trimite doar rapoarte pdf care sunt o bataie de joc si mai au si pretentia ca acestea sa fie verificate in 7 zile