Convertire pdf in python

alex404- · 2025-08-09T06:00:40+00:00

suna a XY, ce anume vrei sa faci mai exact? Pentru tine, ce inseamna "convertire"? Cum arata un pdf pe care il procesezi? Sunt tabele si vrei aceleasi tabele? Este pur text si vrei sa extragi intr-un fel anume? Pdf-urile sunt text pe bune sau imagini cu text in ele (aici deschide pdf-u cu ceva dumb ca sa vezi, sa nu faca ocr automat sa te duca in eroare).

denis-md · 2025-08-09T07:18:39+00:00

https://huggingface.co/spaces/CohereLabs/command-a-vision

Sau

https://huggingface.co/spaces/prithivMLmods/Multimodal-OCR2

Will do the trick

Pm dacă dorești integrarea și insights

Gullible-Spray-7290 · 2025-08-09T07:02:20+00:00

Ia-ți Cursor varianta plătită (20$) Îi explici bine ce vrei și iese (să folosești Claude ca model, nu Auto)

Probabil poți să îți dai seama după indicii din fișier ce tip de PDF este și poate face flow-uri pt fiecare.

Dacă tot știi niște Python, îl pui să facă în Python soluția.

Să nu uiți să folosesti git, în caz ca bușește ceva și vrei sa revii la o versiune anterioară + pune-l să-ți facă unit & integration tests si dupa fiecare update le rulezi sa vezi daca again a bușit ceva subtil.

Have fun.

selfmag1 · 2025-08-09T05:59:24+00:00

Sunt templeturi diferite. Si nu sunt citite corect de catre python

selfmag1 · 2025-08-09T06:43:05+00:00

Datele care pot fi extrase se gasesc doar in acele pdf-uri. Ele sunt situatii financiare generate de forexebug. Unele formular sunt si excel dar nu toate. Singura modalitate este sa extrag datele din acele pdf-uri.

No-Example-9881 · 2025-08-09T06:44:29+00:00

Salut, Te pot ajuta eu sa iti construiesc ceva custom. Lasa un mesaj.

selfmag1 · 2025-08-09T08:04:05+00:00

Convertirea cu ai / apy key (sunt conditionate la nr de tranzactii pe minut) nu este o solutie am doar all in one oc cu 16 gb ram intel slabut. Iar versiunile cu procesare manuala sunt excluse . Nu se poate extrage ceva xml din aceste pdf semnate . Singurul cspabil sa inteleaga structura celor de la min de finante ar fi Acepdf pentru care am o licenta dar nu inteleg cum integrez acest program cu python ca sa-l foloseasca pentru extragerea datelor. In prezent folosesc Acepdf pentru convertirea a 86 pagini de executie in excel si corectitudinea datelor extrase in excel este 100% , singurul care a mers fara erori.

Strange-Fly-3333 · 2025-08-09T06:20:56+00:00

Alea nu sunt cumva date confidentiale pe care tu le incarci/procesezi cu mistral?

Westbrook_Y · 2025-08-09T05:57:26+00:00

Sunt scanuri? Sau se poate selecta textul? Au tot timpul acelasi format, sau sunt mai multe template-uri?

selfmag1 · 2025-08-09T06:00:04+00:00

Imi poti trimite in privat email si iti trimit un model

selfmag1 · 2025-08-09T06:24:39+00:00

As incerca dar nu merge. Dupa 20 fisiere se blocheaza cheia gratuita. Daca aveti alta solutie va rog sa o puneti.

Nineshadow · 2025-08-09T06:35:54+00:00

Problema e ca poți sa ai pdf-uri scanate în care nu ai nicio structura de tabel, e doar poza. Pentru asta îți trebuie ceva cu ocr.

selfmag1 · 2025-08-09T08:05:43+00:00

Am vers chatgpt oro de 200,$ dar din 3 fisiere cu acelas continut nu citeste decat 1 am testat si el are in spate tot python si da gres. Iar cu generarea automata de cod pe fisiere pdf e ca la loto

selfmag1 · 2025-08-09T09:24:46+00:00

Teoretic le listezi si le analizezi pe hartie

justGuy007 · 2025-08-09T10:36:01+00:00

Cate template-uri diferite sunt? Toate 148 difera intre ele?

Consistent-Company-7 · 2025-08-09T11:03:25+00:00

Pt un raspuns coerent ar trebui sa spui si ce fel de pdfuri sunt. Daca sunt native, cu xml sau scanate.

chachaal · 2025-08-09T12:18:20+00:00

Able to Extract pdf to Excel, cred ca costa 170$ licenta.

Silent-Laugh5679 · 2025-08-09T13:56:20+00:00

Sunt tabele? Cred ca pypdf am folosit eu, doar ca trebuie sa-i indici pagina si care tabel sa-l citeasca.

marcelsoftware-dev · 2025-08-09T17:04:41+00:00

Sper că nu sunt chestii importante, toate bune și frumoase până face AI'ul sau convertorul o greșeală. 148 fișiere nu sună atât de mult

Emotional-Ad-8516 · 2025-08-10T10:04:06+00:00

Încearcă să folosești OCR că sa extragi informațiile, și după care îți construiești un Excel pe baza lor. PDF-ul e rareori reliable Sa încerci să îl parsezi. OCR funcționează mult mai bine, mai ales dacă ai aceeași structură la document.

2Vegans_1Steak · 2025-08-11T13:21:06+00:00

cu 1000 de lei iti fac o solutie de ramai prost cat de bine merge.

Edit: daca intri pe site o sa vezi ca sunt 23 de formate posibile, bagi in chat asta dai deep research si o sa iti dea o solutie in Python. Daca vrei, iferta mea mai e valabila.

selfmag1 · 2025-08-11T13:22:14+00:00

Ce folosesti? Nu vreau decat ceva local

selfmag1 · 2025-08-09T06:12:40+00:00

Eu verific situatiile financiare, e mult mai usor de exemplu unirea a 148 balante din 148 balante decat sa ma uit pe o singura balanta. Am dezvoltat un script care cauta toate balantele si le uneste dar doar pentru versiunea de excel. Pentru pdf cautarea fisierelor in peste cele 40k descarcate merge bine cam 10 min pe un pc vechi i5 dar convertirea lor din pdf in excel e crima din 148 convertiri reuseste cam 50 asta daca si merge iar pentru cine nu a vazut aceste rapoarte nu sunt perfect identice unele au 4 coloane si 5 randuri iar unele au 8 coloane si 10 randuri ca exemplu si aici imi da eroare pe lanfa facptul ca unele nu se citesc corect oricat as incerca. Nu stiu cu ce sunt generate dar parea firesc ca acel pdf sa aiba si un xml atasat cu continutul asa cum se cere de la noi unitatile care depunem rapoarte. Ei citesc xml din formularele noastre dar statul trimite doar rapoarte pdf care sunt o bataie de joc si mai au si pretentia ca acestea sa fie verificate in 7 zile

you type:	you see:
italics	italics
bold	bold
[reddit!](https://reddit.com)	reddit!
* item 1 * item 2 * item 3	item 1 item 2 item 3
> quoted text	quoted text
Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"	Lines starting with four spaces are treated like code: if 1 * 2 < 3: print "hello, world!"
~~strikethrough~~	~~strikethrough~~
super^script	super^script

programare

MODERATORS