Skip to content

Αποθετήριο κώδικα για την υλοποίηση των ζητούμενων queries στην εξαμηνιαία εργασία του μαθήματος "Διαχείριση Δεδομένων Μεγάλης Κλίμακας" (Ε.ΔΕ.Μ.Μ. Ε.Μ.Π.) με τα PySpark RDD, Dataframes και SQL API's, για το ακαδημαϊκό έτος 2024-2025

Notifications You must be signed in to change notification settings

stefpetk/BigDataEx24-25

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Ζητούμενα ανά query ή/και ζητούμενο εργασίας

Στους παρακάτω φακέλους μπροούν να βρεθούν τα python spark scripts μέσω των οποίων υλοποιηθηκαν τα ζητούμενα στο πλαίσιο της εργασίας queries:

  • Query 1 (Υλοποίηση με RDD και Dataframe API's με και χωρίς UDF)
  • Query 2 (Υλοποίηση με RDD, Dataframe και SQL API's)
  • Query 3 (Υλοποίηση με RDD και Dataframe API's)
  • Query 4 (Υλοποίηση με Dataframe API και διάφορα spark configurations)

Επίσης παρατίθεται και το script 02_table2parquet.py μέσω του οποίου τα αρχεία των datasets μετατρέπονται από το .csv στο .parquet format αποθήκευσης

About

Αποθετήριο κώδικα για την υλοποίηση των ζητούμενων queries στην εξαμηνιαία εργασία του μαθήματος "Διαχείριση Δεδομένων Μεγάλης Κλίμακας" (Ε.ΔΕ.Μ.Μ. Ε.Μ.Π.) με τα PySpark RDD, Dataframes και SQL API's, για το ακαδημαϊκό έτος 2024-2025

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages