Θεματικά Εστιασμένη Προσκομιδή Ιστοσελίδων από τον Κρυμμένο Παγκόσμιο Ιστό
Speaker:Panagiotis Liakos
Date:03/06/2011
University:Univ. of Athens
Room :A56
Time:3:00pm
Abstract:Ένα συνεχώς αυξανόμενο πλήθος υψηλής ποιότητας πληροφορίας είναι αποθηκευμένο σε σελίδες που έρχονται από τον Κρυμμένο Παγκόσμιο Ιστό (Hidden Web). Τέτοιες σελίδες είναι προσβάσιμες μόνο μέσω μιας διεπαφής επερωτήσεων που παρέχεται από τους Κρυμμένους Ιστότοπους και μπορεί να εκτείνονται σε μία ποικιλία θεμάτων. Προκειμένου να παρασχεθεί κεντρικοποιημένη πρόσβαση στον Κρυμμένο Παγκόσμιο Ιστό, οι προηγούμενες προσπάθειες είχαν επικεντρωθεί στην ανάπτυξη τεχνικών παραγωγής επερωτήσεων ( queries) που στοχεύουν στην λήψη ενός ολόκληρου Κρυμμένου ιστότοπου με το μικρότερο κόστος. Σε ορισμένες περιπτώσεις όμως, μας ενδιαφέρει η λήψη μόνο ενός συγκεκριμένου κομματιού ενός τέτοιου ιστότοπου. Για παράδειγμα, σε μία ειδησεογραφική βάση δεδομένων, έναν χρήστης μπορεί να ενδιαφέρεται για την ανάκτηση μόνο των αθλητικών άρθρων και όχι των πολιτικών. Σε αυτή την περίπτωση, πρέπει να κάνουμε την καλύτερη δυνατή χρήση των πόρων μας κατεβάζοντας μόνο το τμήμα του Κρυμμένου ιστότοπου που μας ενδιαφέρει. Στην εργασία αυτή, ερευνούμε το πως μπορούμε να αναπτύξουμε μια θεματικά εστιασμένη εφαρμογή προσκομιδής κρυμμένων ιστοσελιδών (Topic-Sensitive Hidden Web Crawler) που μπορεί αυτόνομα να εξάγει θεματικές σελίδες από τον Κρυμμένο Παγκόσμιο Ιστό, αναζητώντας μόνο στο υποσύνολο που είναι σχετικό με την αντίστοιχη κατηγορία. Για το σκοπό αυτό, παρουσιάζουμε τεχνικές παραγωγής επερωτήσων που λαμβάνουν υπόψη τους το θέμα το οποίο μας ενδιαφέρει. Προτείνουμε έναν πλήθος από διαφορετικές πολιτικές συγκομιδής ιστοσελίδων και τις αξιολογούμε πειραματικά με δεδομένα απο ένα δημοφιλή ιστότοπο. (Εξεταστές: Μ. Κουμπαράκης, Α. Δελής