Στους παρακάτω φακέλους μπροούν να βρεθούν τα python spark scripts μέσω των οποίων υλοποιηθηκαν τα ζητούμενα στο πλαίσιο της εργασίας queries:
- Query 1 (Υλοποίηση με RDD και Dataframe API's με και χωρίς UDF)
- Query 2 (Υλοποίηση με RDD, Dataframe και SQL API's)
- Query 3 (Υλοποίηση με RDD και Dataframe API's)
- Query 4 (Υλοποίηση με Dataframe API και διάφορα spark configurations)
Επίσης παρατίθεται και το script 02_table2parquet.py μέσω του οποίου τα αρχεία των datasets μετατρέπονται από το .csv στο .parquet format αποθήκευσης