Tabelele nu a fost detectat cu tabula și camelot

0

Problema

Am încercat pentru a extrage tabele de Pdf-uri care nu sunt în format adecvat care cred. Mesele în aceste Pdf-uri au un format de tabel, dar care nu sunt închise în mod corespunzător cu plan de frontiere. enter image description here Voi atasa pdf eșantion și de ieșire cu ambele biblioteci. Când am încercat să folosesc tabula pentru masa de detectare, un gol datadrame este întors pe toate paginile în format pdf.

introduceți 0 pentru pagini individuale, 1 pentru, 2 pentru o anumită pagină: 2 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de tabula.

Și când m-am folosi camelot nu există nici un fel de răspuns când m-am folosi flovor='lattice'

introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 0 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de camelot.

și când m-am folosi flovor='stream'Am obține o dataframe care are fiecare linie a citi linie cu linie cu tab separat de date, dar va include text normal, precum și în dataframe.

introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 1 introduceți numărul de pagină: 25 enter image description here

Am nevoie doar de o modalitate eficientă de a detecta masă și extrage aceleași date dacă verticale de închidere tabel liniile nu sunt prezente. Ambele tabula și camelot bibliotecile sunt bine lucru, dacă tabelul este în formatul corect delimitate prin linii verticale și orizontale.

nlp pdf python python-camelot
2021-11-22 15:08:39
2

Cel mai bun răspuns

0

Această metodă ar putea ajuta: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

Puteți găsi specifiy separator vertical la camelot prin trecerea coordonatelor x, în primul rând ar trebui să utilizați ".complot()" metoda în camelot pentru a vedea tabelul în format pdf și să facă act de coordonatele x în cazul în care doriți separatoare verticale pentru a fi apoi trece-le în ca mai jos:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2']) 
2021-11-22 15:52:19
-1

Tabelele nu a fost detectat cu tabula și camelot

Am fost recent de lucru pentru a extrage masa din PDF.

Tabula și camelot nu au de lucru nici pentru mine dar pdfplumber m-obligația de rezultat.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)
2021-11-27 11:30:02

În alte limbi

Această pagină este în alte limbi

Русский
..................................................................................................................
Italiano
..................................................................................................................
Polski
..................................................................................................................
한국어
..................................................................................................................
हिन्दी
..................................................................................................................
Français
..................................................................................................................
Türk
..................................................................................................................
Česk
..................................................................................................................
Português
..................................................................................................................
ไทย
..................................................................................................................
中文
..................................................................................................................
Español
..................................................................................................................
Slovenský
..................................................................................................................