Vreau să reproducă codul de mai jos, folosind pyspark DataFrame funcții în loc de interogare SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Vreau să reproducă codul de mai jos, folosind pyspark DataFrame funcții în loc de interogare SQL.
spark.sql("select date from walmart_stock order by high desc limit 1").show()
Aici este codul dacă pornim de la legate de fișier CSV. Tu ar trebui să recunoască funcțiile SQL. Rețineți că vom folosi inferSchema
opțiune pentru a analiza numere în camere duble și de a obține ordonarea corectă (nu ar funcționa cum era de așteptat, cu implicite de tip string). O altă modalitate ar fi să arunce coloana după ce a citit CSV.
spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv("walmart_stock.csv")
.orderBy(f.col("High"), desc=True)
.limit(1)
.select("Date")
.show()
care dă
+----------+
| Date|
+----------+
|2015-11-13|
+----------+