Tabelele nu a fost detectat cu tabula și camelot

Question 1

Am încercat pentru a extrage tabele de Pdf-uri care nu sunt în format adecvat care cred. Mesele în aceste Pdf-uri au un format de tabel, dar care nu sunt închise în mod corespunzător cu plan de frontiere. Voi atasa pdf eșantion și de ieșire cu ambele biblioteci. Când am încercat să folosesc tabula pentru masa de detectare, un gol datadrame este întors pe toate paginile în format pdf.

introduceți 0 pentru pagini individuale, 1 pentru, 2 pentru o anumită pagină: 2 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de tabula.

Și când m-am folosi camelot nu există nici un fel de răspuns când m-am folosi flovor='lattice'

introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 0 introduceți numărul de pagină: 25 nu tabele găsite pe această pagină de camelot.

și când m-am folosi flovor='stream'Am obține o dataframe care are fiecare linie a citi linie cu linie cu tab separat de date, dar va include text normal, precum și în dataframe.

introduceți 0 pentru pagini individuale, 1 pentru toate pagini, 2 pagini în tabelele sunt detectate de tabula, 3 pentru anumite pagini: 3 introduceți 0 pentru zăbrele sau 1 pentru flux: 1 introduceți numărul de pagină: 25

Am nevoie doar de o modalitate eficientă de a detecta masă și extrage aceleași date dacă verticale de închidere tabel liniile nu sunt prezente. Ambele tabula și camelot bibliotecile sunt bine lucru, dacă tabelul este în formatul corect delimitate prin linii verticale și orizontale.

Question 2

Această metodă ar putea ajuta: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

Puteți găsi specifiy separator vertical la camelot prin trecerea coordonatelor x, în primul rând ar trebui să utilizați ".complot()" metoda în camelot pentru a vedea tabelul în format pdf și să facă act de coordonatele x în cazul în care doriți separatoare verticale pentru a fi apoi trece-le în ca mai jos:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

Question 3

Tabelele nu a fost detectat cu tabula și camelot

Am fost recent de lucru pentru a extrage masa din PDF.

Tabula și camelot nu au de lucru nici pentru mine dar pdfplumber m-obligația de rezultat.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

Mahmud Alptekin · Answer 1 · 2021-11-22T15:52:19

Această metodă ar putea ajuta: https://camelot-py.readthedocs.io/en/master/user/advanced.html#specify-column-separators

Puteți găsi specifiy separator vertical la camelot prin trecerea coordonatelor x, în primul rând ar trebui să utilizați ".complot()" metoda în camelot pentru a vedea tabelul în format pdf și să facă act de coordonatele x în cazul în care doriți separatoare verticale pentru a fi apoi trece-le în ca mai jos:

# to get the x-coordinates
tables = camelot.read_pdf('your_pdf.pdf')
camelot.plot(tables[0], kind='text').show()

#to pass the x-coordinates
camelot.read_pdf('your_pdf.pdf', flavor='stream', columns=['x1,x2'])

DS_ShraShetty · Answer 2 · 2021-11-27T11:30:02

Tabelele nu a fost detectat cu tabula și camelot

Am fost recent de lucru pentru a extrage masa din PDF.

Tabula și camelot nu au de lucru nici pentru mine dar pdfplumber m-obligația de rezultat.

import pdfplumber
pdf = pdfplumber.open(filepath)
table = pdf.pages[1].extract_table(table_settings=
{"vertical_strategy": "text", "horizontal_strategy": "text"})
df = pd.DataFrame(table, columns=table)
df.to_csv(outfile2, mode='a', index=False)

Tabelele nu a fost detectat cu tabula și camelot

Problema

Cel mai bun răspuns

Tabelele nu a fost detectat cu tabula și camelot

În alte limbi

Această pagină este în alte limbi

Popular în această categorie

Întrebări frecvente în această categorie