Χρήση Ελαστικής Υποδομής για Σύζευξή Δεδομένων Ροών
Speaker:

Νίκος Μαραβίτσας

Date: 14/07/2016
University: ΕΚΠΑ
Room : A3
Time: 14:00
Slides:
Abstract:

Σε αυτή την εργασία στοχεύουμε στη βελτίωση της απόδοσης των εργασιών  επιχειρηματικής ευφυΐας σημαντικό κομμάτι των οποίων είναι οι εργασίες Εξόρυξη-Μετασχηματισμού-Φόρτωσης (ETL).  Στην συντριπτική πλειοψηφία οι διαδικασίες  ETL  περιλαμβάνουν πολύ ακριβά joins μεταξύ δεδομένων ροών και σχεσιακών δεδομένων. Παρουσιάζουμε μια αρχιτεκτονική για την ελαστική προσαρμογή του αλγορίθμου Semi-Streamed Index Join

(SSIJ) που με επιτυχία αντιμετωπίζει εργασίες τύπου-ETL.  Υιοθετούμε μια ελαστική κατανεμημένη αρχιτεκτονική που το βασικό της μέλημα είναι η δίκαιη διανομή του υπολογιστικού φόρτου του SSIJ σε πολλαπλούς κόμβους.

Έχουμε αναπτύξει αλγόριθμους που κατευθύνουν αποδοτικά την ροή των δεδομένων μέσα  συστάδες κόμβων, προκειμένου να κάνουμε αποτελεσματικό caching. Έχουμε επίσης τη δυνατότητα να προσθέσουμε ή να αφαιρέσουμε δυναμικά υπολογιστικούς κόμβους ανάλογ α με τον όγκο της κυκλοφορίας προκειμένου να διατηρηθεί η απόδοση του συστήματος σε σταθερά επίπεδα και ταυτόχρονα να μην σπαταλώνται πολύτιμοι πόροι. Στην υλοποίησή της υποδομής  χρησιμοποιήσαμε container cluster με Docker μαζί το Kubernetes framework για την οργάνωση και διαχείριση της υπολογιστικής συστάδας.  Ο πειραματισμός πραγματοποιήθηκε στο Google Cloud.

MaDgIK 2009-2018