Adaptive indexing for interactive visual exploration and analytics Full text

Stavros Maroulis
NTUA (supervisor: Prof. Yannis Vassiliou), July 2023
2023
Διδακτορική Διατριβή
Περίληψη. Η παρούσα διατριβή παρουσιάζει νέες τεχνικές ευρετηρίασης που στοχεύουν στη διευκόλυνση της οπτικής εξερεύνησης δεδομένων αποθηκευμένων σε μεγάλα πρωτογενή αρχεία. Στη σύγχρονη εποχή, τα δεδομένα παράγονται με εξαιρετική ταχύτητα και σε τεράστιες ποσότητες, και η ικανότητα για γρήγορη επεξεργασία και κατανόηση αυτών των δεδομένων γίνεται ολοένα και πιο κρίσιμη. Τα συμβατικά εργαλεία εξερεύνησης δεδομένων βασίζονται σε μεγάλο βαθμό στα παραδοσιακά Συστήματα Διαχείρισης Βάσεων Δεδομένων (ΣΔΒΔ), τα οποία απαιτούν φόρτωση δεδομένων και ευρετηρίαση τους για μπορέσουν να αναλυθούν. Ωστόσο, αυτές οι διαδικασίες μπορούν να είναι ακριβές, χρονοβόρες και μη πρακτικές, ιδίως όταν τα δεδομένα ενδέχεται να μη χρησιμοποιηθούν ξανά μετά την ανάλυση τους. Αρχικά εξετάζονται οι αδυναμίες των υπαρχόντων εργαλείων και μεθοδολογιών για την εξερεύνηση πρωτογενών δεδομένων, επισημαίνοντας την ανάγκη για ένα πιο αποτελεσματικό σύστημα. Στη συνέχεια, παρουσιάζεται ένα μοντέλο οπτικής εξερεύνησης όπου οι ενέργειες του χρήστη μεταφράζονται σε λειτουργίες πρόσβασης στα δεδομένα. Επιπλέον, εξετάζονται και παρουσιάζονται νέες τεχνικές ευρετηρίασης στη μνήμη, καθώς και μοντέλα κόστους, με ιδιαίτερη έμφαση στην προσαρμοστική ευρετηρίαση και τις δομές δεδομένων με ελαφρύτερο αποτύπωμα στη μνήμη. Αυτές οι τεχνικές είναι ειδικά σχεδιασμένες για τη διαχείριση μεγάλων όγκων πρωτογενών δεδομένων, ελαχιστοποιώντας αποτελεσματικά το κόστος πρόσβασης στο αρχείο δεδομένων και ξεκινώντας γρήγορα την αναλυτική εξερεύνηση του χρήστη, δημιουργώντας μια αρχική έκδοση του ευρετηρίου όταν ο χρήστης ζητά πρώτη φορά να αναλύσει ένα αρχείο. Αυτό το ευρετήριο γίνεται πιο λεπτομερές και προσαρμόζεται στην εξερεύνηση του χρήστη με κάθε ενέργεια του χρήστη. Επιπλέον, για την αντιμετώπιση σεναρίων με περιορισμένους υπολογιστικούς πόρους, εισάγεται ένας μηχανισμός αρχικοποίησης του ευρετηρίου που λαμβάνει υπόψιν τη διαθέσιμη μνήμη και προτείνονται αποτελεσματικοί αλγόριθμοι για την επίλυση του αντίστοιχου προβλήματος βελτιστοποίησης. Μέσω εκτενών πειραμάτων με πραγματικά και συνθετικά σύνολα δεδομένων, οι προτεινόμενες τεχνικές αποδεικνύονται ότι υπερτερούν των υπαρχόντων λύσεων, ανταποκρινόμενες έτσι στην ανάγκη για πιο αποτελεσματικές μεθόδους εξερεύνησης ακατέργαστων δεδομένων. Αυτές οι τεχνικές ευρετηρίασης αποτελούν τη βάση του συστήματος RawVis, επιτρέποντας αποτελεσματική ανάλυση των δεδομένων, παρακάμπτοντας τα ακριβά στάδια προεπεξεργασίας τους, όπως η φόρτωση και η ευρετηρίαση τους σε ένα ΣΔΒΔ. Το RawVis παρέχει μια πλήρη και αποτελεσματική αρχιτεκτονική πελάτη-διακομιστή για οπτική εξερεύνηση δεδομένων απευθείας από τα πρωτογενή αρχεία, περιλαμβάνοντας μια πλούσια διεπαφή χρήστη που παρουσιάζει μια ευρεία γκάμα επιλογών για οπτικοποίηση και ανάλυση. Μέσω μιας εκτενούς μελέτης χρηστών, αποδεικνύεται η ικανότητα του συστήματος να προσφέρει οπτική ανάλυση μεγάλων αρχείων πρωτογενών δεδομένων. Συνοψίζοντας, αυτή η διατριβή προσφέρει μια σημαντική συνεισφορά στον τομέα της αναλυτικής δεδομένων, παρουσιάζοντας ένα νέο σύστημα και τεχνικές που βελτιώνουν σημαντικά την αποδοτικότητα της διαχείρισης των δεδομένων, μειώνουν τη χρήση πόρων και ενισχύουν την εμπειρία του χρήστη σε ό,τι αφορά την ταχύτητα και την αλληλεπίδραση.