Managing, Querying and Analyzing Big Data on the Web Full text

Marios Meimaris
University of Thessaly (supervisor prof. I. Anagnostopoulos)
2018
Διδακτορική Διατριβή
Περίληψη. Η παρούσα διδακτορική διατριβή πραγματεύεται θέματα και προβλήματα διαχείρησης δεδομένων που προκύπτουν εντός του Σημασιολογικού Ιστού και εστιάζει στο μοντέλο Resource Description Framework (RDF) και τη γλώσσα επερωτήσεων SPARQL. Σε αυτό το πλαίσιο ακολουθούνται τρεις ερευνητικές κατευθύνσεις, συγκεκριμένα (i) η διαχείρηση εξελισσόμενων RDF δεδομένων, (ii) η αποθήκευση, ευρετηρίαση και βελτιστοποίηση περίπλοκων επερωτήσεων σε συστήματα βάσεων RDF/SPARQL, και (iii) η αποδοτική και κλιμακώσιμη ανάκτηση πληροφορίας από σύνολα πολυδιάστατων RDF δεδομένων. Παρουσιάζονται αποδοτικές και κλιμακώσιμες μέθοδοι, εστιαζόμενες σε συγκεκριμένα προβλήματα των προαναφερθείσων κατευθύνσεων, με τελικό σκοπό να προταθούν προοδευτικές εξελίξεις στην αιχμή της έρευνας.Στην πρώτη κατεύθυνση, και συγκεκριμένα στα κεφάλαια 2 και 3, μελετάται το πρόβλημα της αναπαράστασης, αποθήκευσης και επερώτησης εξελισσόμενων RDF δεδομένων. Υπό αυτό το πρίσμα, προτείνεται ένα νέο μοντέλο δεδομένων και μια νέα γλώσσα επερωτήσεων, στοχεύοντας στην αναπαράσταση της εξέλιξης σε περιστάσεις ετερογενών πεδίων πληροφορίας. Ακολούθως, προτείνεται μια νέα μέθοδος παραγωγής συνθετικών εξελισσόμενων RDF δεδομένων΄, η οποία στοχεύει στην καλύτεηρ αξιολόγηση συστημάτων διαχείρησης εκδόσεων (versioning). Στη δεύτερη κατεύθυνση, και συγκεκριμένα στα κεφάλαια 4, 5 και 6, αντιμετωπίζεται το πρόβλημα της ευρετηρίασης και της αποτίμησης επερωτήσεων, εστιάζοντας συγκεκριμένα σε ερωτήματα βαρέως φόρτου εργασίας σε ημι-δομημένα σύνολα δεδομένων RDF. Υπό αυτό το πρίσμα, προτείνεται μια νέα μέθοδος ευρετηρίασης και αποθήκευσης RDF δεδομένων, η οποία βασίζεται στην ανάκτηση του υποκείμενου σχήματος των δεδομένων, καθώς και νέοι αλγόριθμοι αποτίμησης επερωτήσεων SPARQL που εκμεταλλεύονται το υποκείμενο σχήμα ώστε να βοηθήσουν την αποδοτική και ταχεία αποτίμηση περίπλοκων επερωτήσεων, όπου τα υπάρχοντα συστήματα παρουσιάζουν προβλήματα. Επιπροσθέτως, προτείνεται μια νέα μέθοδος λογικής βελτιστοποίησης βασιζόμενη στην αναπροσαρμογή της σειράς αποτίμησης των τριπλετών (triple pattern reordering). Τέλος, παρουσιάζεται μια σειρά από τεχνικές που στοχεύουν στην σύμπτυξη του υποκείμενου σχήματος με σκοπό την περαιτέρω βελτιστοποίηση της διαδικασίας αποτίμησης.Τέλος, στην τρίτη κατεύθυνση, και συγκεκριμένα στο κεφάλαιο 7, ορίζεται μια σειρά από τύπους συσχετίσεων μεταξύ δεδομένων σε πολυδιάστατωα σύνολα κύβων RDF, και προτείνεται μια σειρά από υπολογιστικές μεθόδους και αλγορίθμους που στοχεύουν στην ταχεία και αποδοτική ανάκτηση αυτών των συσχετίσεων. Η αξιολόγηση των μεθόδων μέσα από μια εκτεταμένη πειραματική διαδικασία, υποδεικνύει ότι οι προτεινόμενες μέθοδοι προσφέρουν σημαντικά πλεονεκτήματα απόδοσης σε σχέση με την τρέχουσα ερευνητική αιχμή.