Am încercat pentru a extrage tabele de Pdf-uri care nu sunt în format adecvat care cred. Mesele în aceste Pdf-uri au un format de tabel, dar care nu sunt închise în mod corespunzător cu plan de frontiere. Voi atasa pdf eșantion și de ieșire cu ambele biblioteci. Când am încercat să folosesc tabula pentru masa de detectare, un gol datadrame este întors pe toate paginile în format pdf.
introduceți 0 pentru pagini individuale, 1 pentru, 2 pentru o anumită pagină: 2 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de tabula.
Și când m-am folosi camelot nu există nici un fel de răspuns când m-am folosi flovor='lattice'
introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 0 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de camelot.
și când m-am folosi flovor='stream'
Am obține o dataframe care are fiecare linie a citi linie cu linie cu tab separat de date, dar va include text normal, precum și în dataframe.
introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 1 introduceți numărul de pagină: 25
Am nevoie doar de o modalitate eficientă de a detecta masă și extrage aceleași date dacă verticale de închidere tabel liniile nu sunt prezente. Ambele tabula și camelot bibliotecile sunt bine lucru, dacă tabelul este în formatul corect delimitate prin linii verticale și orizontale.