Sună ca și cum sunteți în căutarea pentru partitionBy
definite pe DataFrameWriter
. Din scaladoc:
def partitionBy(colNames: String*): DataFrameWriter[T]
Partiții de ieșire de date coloane de pe sistemul de fișiere. Dacă este specificat, de ieșire este pus pe sistemul de fișiere, similare cu Stup schemă de partiționare. Ca un exemplu, când am partitia un set de date de către an și de atunci lună, directorul layout ar arăta astfel:
year=2016/month=01/
year=2016/month=02/
Partitionarea este unul dintre cele mai utilizate tehnici pentru a optimiza datele fizice layout. Acesta oferă o mazarat index pentru sărind peste datele inutile citește atunci când întrebările au predicate pe partiționat coloane. În scopul de partiționare pentru a lucra bine, numărul de valori distincte în fiecare coloană trebuie să fie de obicei mai puțin decât zeci de mii.
Acest lucru este aplicabil pentru toate fișiere bazate pe surse de date (de exemplu, Parchet, JSON) începând cu Scânteie 2.1.0.