Repeta fișierele din folder și le prelucrează în scala

Question 1

Am o pereche de fișiere într-un folder pentru diferite țări. ca de mai jos

Casedata_GBR_202110_timestamp.csv

Casedata_ARG_202110_timestamp.csv

acum trebuie să-procesul de a lua aceste fișiere procesul ei de țară înțelept și copia în folderele respective. mi folder de destinație va fi o astfel de structura

2021-->11-->GBR

2021-->11-->ARG

În scânteie scala/scala ajută-mă să scrie cod pentru a procesa fișierul de țară și să se mute la tara respectiva folder.

Question 2

Sună ca și cum sunteți în căutarea pentru partitionBy definite pe DataFrameWriter. Din scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partiții de ieșire de date coloane de pe sistemul de fișiere. Dacă este specificat, de ieșire este pus pe sistemul de fișiere, similare cu Stup schemă de partiționare. Ca un exemplu, când am partitia un set de date de către an și de atunci lună, directorul layout ar arăta astfel:

year=2016/month=01/
year=2016/month=02/

Partitionarea este unul dintre cele mai utilizate tehnici pentru a optimiza datele fizice layout. Acesta oferă o mazarat index pentru sărind peste datele inutile citește atunci când întrebările au predicate pe partiționat coloane. În scopul de partiționare pentru a lucra bine, numărul de valori distincte în fiecare coloană trebuie să fie de obicei mai puțin decât zeci de mii.

Acest lucru este aplicabil pentru toate fișiere bazate pe surse de date (de exemplu, Parchet, JSON) începând cu Scânteie 2.1.0.

Jarrod Baker · Answer 1 · 2021-11-24T08:25:52

Sună ca și cum sunteți în căutarea pentru partitionBy definite pe DataFrameWriter. Din scaladoc:

def partitionBy(colNames: String*): DataFrameWriter[T]

Partiții de ieșire de date coloane de pe sistemul de fișiere. Dacă este specificat, de ieșire este pus pe sistemul de fișiere, similare cu Stup schemă de partiționare. Ca un exemplu, când am partitia un set de date de către an și de atunci lună, directorul layout ar arăta astfel:

year=2016/month=01/
year=2016/month=02/

Partitionarea este unul dintre cele mai utilizate tehnici pentru a optimiza datele fizice layout. Acesta oferă o mazarat index pentru sărind peste datele inutile citește atunci când întrebările au predicate pe partiționat coloane. În scopul de partiționare pentru a lucra bine, numărul de valori distincte în fiecare coloană trebuie să fie de obicei mai puțin decât zeci de mii.

Acest lucru este aplicabil pentru toate fișiere bazate pe surse de date (de exemplu, Parchet, JSON) începând cu Scânteie 2.1.0.

există oricum pentru a obține ca 2016/01 și va foreach ajuta pentru a repeta una de-un singur fișier
trebuie să proceseze unul câte unul fișierul în dataframe și copia în blob

Repeta fișierele din folder și le prelucrează în scala

Problema

Cel mai bun răspuns

În alte limbi

Această pagină este în alte limbi

Popular în această categorie

Întrebări frecvente în această categorie