Τεχνικές ταξινόμησης αποτελεσμάτων μηχανών αναζήτησης με βάση την ιστορία του χρήστη
Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, ΕΜΠ
2009
Διπλωματική Εργασία
- Υπεύθυνος ΙΠΣΥ: Θοδωρής Δαλαμάγκας
Περίληψη.
Σκοπός της εργασίας αυτής είναι ο σχεδιασμός και η ανάπτυξη τεχνικών που θα βελτιώσουν τον τρόπο ταξινόμησης των αποτελεσμάτων μιας μηχανής αναζήτησης, έτσι ώστε η κατάταξή τους να είναι εξατομικευμένη για το χρήστη. Η χρησιμότητα μίας μηχανής αναζήτησης για ένα χρήστη εξαρτάται από την σχετικότητα των αποτελεσμάτων που του παρουσιάζονται σε σχέση με αυτά που περίμενε να δει. Οι περισσότερες μηχανές αναζήτησης χρησιμοποιούν μεθόδους για την κατάταξη των αποτελεσμάτων έτσι ώστε να εμφανίζουν στην κορυφή τα καλύτερα αποτελέσματα. Καθώς η χρήση του Διαδικτύου και συνεπώς και των χρηστών μηχανών αναζήτησης συνεχώς αυξάνεται, είναι φανερό ότι η παραδοσιακή μέθοδος της ενιαίας κατάταξης για όλους τους χρήστης δεν είναι αρκετά ικανοποιητική. Η εξατομίκευση των αποτελεσμάτων που πραγματοποιεί η εφαρμογή μας είναι μία μέθοδος που απευθύνεται σε αυτό το πρόβλημα των μηχανών αναζήτησης. Η τροποποίηση της παρουσιαζόμενης κατάταξης γίνεται με βάση το ιστορικό της δραστηριότητας του χρήστη καθώς πραγματοποιεί αναζητήσεις στο διαδίκτυο. Το ιστορικό περιλαμβάνει μόνο δεδομένα τύπου clickstream, δηλαδή την ακολουθία των κλικ που ο χρήστης έκανε κατά τη διάρκεια χρήσης της μηχανής αναζήτησης. Αναλύοντας τα δεδομένα αυτά, εξάγονται κάποια συμπεράσματα για τις προτιμήσεις του χρήστη. Ο χρήστης δε χρειάζεται να δηλώσει ρητά τις προτιμήσεις του, αλλά τις εξάγουμε έμμεσα, βασιζόμενοι στο γεγονός ότι κάνει κλικ σε κάποια αποτελέσματα ενώ εσκεμμένα αγνοεί κάποια άλλα που εμφανίζονται υψηλότερα στην αρχική κατάταξη. Παράλληλα καταγράφονται και τα χαρακτηριστικά των αποτελεσμάτων που εμφανίζονται στο χρήστη, ανεξαρτήτως αν τα επισκέφτηκε ή όχι. Αφού έχουμε μαζέψει έναν ικανοποιητικό αριθμό τέτοιων προτιμήσεων, τα τροφοδοτούμε μαζί τα χαρακτηριστικά των ιστοσελίδων στον αλγόριθμο εκπαίδευσης Support Vector Machine. Ο αλγόριθμος αυτός εκπαιδεύει ένα μοντέλο, το οποίο ουσιαστικά μαθαίνει τι χαρακτηριστικά έχουν τα αποτελέσματα που προτιμά ο χρήστης. Μπορούμε να χρησιμοποιήσουμε το μοντέλο αυτό για την αλλαγή της ταξινόμησης των αποτελεσμάτων που επιστρέφει η μηχανή αναζήτησης, ώστε να παρουσιάζονται με εξατομικευμένη κατάταξη για το χρήστη.