Skip to main content

Η χρήση ταξινόμησης στην εξόρυξη δεδομένων

Εισαγωγή στις Δομές Δεδομένων-Πίνακες (Απρίλιος 2024)

Εισαγωγή στις Δομές Δεδομένων-Πίνακες (Απρίλιος 2024)
Anonim

Η ταξινόμηση είναι μια τεχνική εξόρυξης δεδομένων που αναθέτει κατηγορίες σε μια συλλογή δεδομένων προκειμένου να βοηθήσει σε ακριβέστερες προβλέψεις και ανάλυση. Επίσης ονομάζεται a Δέντρο απόφασης , η ταξινόμηση είναι μια από τις πολλές μεθόδους που αποσκοπούν στην αποτελεσματική ανάλυση της ανάλυσης πολύ μεγάλων συνόλων δεδομένων.

Γιατί ταξινόμηση;

Πολύ μεγάλες βάσεις δεδομένων γίνονται ο κανόνας στον σημερινό κόσμο του μεγάλα δεδομένα . Φανταστείτε μια βάση δεδομένων με πολλά terabyte δεδομένων - ένα terabyte είναι ένα τρισεκατομμύριο byte δεδομένων.

Μόνο το Facebook χτυπά 600 terabytes νέων δεδομένων κάθε μέρα (από το 2014, την τελευταία φορά που ανέφερε αυτές τις προδιαγραφές). Η κύρια πρόκληση των μεγάλων δεδομένων είναι πώς να το κατανοήσουμε.

Και ο τεράστιος όγκος δεν είναι το μόνο πρόβλημα: τα μεγάλα δεδομένα τείνουν επίσης να είναι διαφορετικά, μη δομημένα και ταχέως μεταβαλλόμενα. Εξετάστε δεδομένα ήχου και βίντεο, δημοσιεύσεις κοινωνικών μέσων, δεδομένα 3D ή γεωχωρικά δεδομένα. Αυτά τα δεδομένα δεν είναι εύκολα κατηγοριοποιημένα ή οργανωμένα.

Για την αντιμετώπιση αυτής της πρόκλησης, αναπτύχθηκε μια σειρά αυτόματων μεθόδων για την εξαγωγή χρήσιμων πληροφοριών μεταξύ τους ταξινόμηση .

Πώς λειτουργεί η ταξινόμηση

Με τον κίνδυνο να προχωρήσουμε υπερβολικά σε τεχνολογία, ας συζητήσουμε πώς λειτουργεί η ταξινόμηση. Ο στόχος είναι να δημιουργήσετε ένα σύνολο κανόνων ταξινόμησης που θα απαντούν σε μια ερώτηση, θα λαμβάνουν μια απόφαση ή θα προβλέπουν συμπεριφορά. Για να ξεκινήσει, αναπτύσσεται ένα σύνολο δεδομένων κατάρτισης που περιέχει ένα ορισμένο σύνολο χαρακτηριστικών καθώς και το πιθανό αποτέλεσμα.

Η δουλειά του αλγορίθμου ταξινόμησης είναι να ανακαλύψει πώς το σύνολο των χαρακτηριστικών φτάνει στο συμπέρασμα του.

Σενάριο: Ίσως μια εταιρεία πιστωτικών καρτών προσπαθεί να καθορίσει ποιες προοπτικές πρέπει να λάβουν μια προσφορά πιστωτικής κάρτας.

Αυτό μπορεί να είναι το σύνολο των δεδομένων εκπαίδευσης:

Δεδομένα εκπαίδευσης
ΟνομαΗλικίαΓένοςΕτήσιο εισόδημαΠροσφορά πιστωτικής κάρτας
John Doe25Μ$39,500Οχι
Jane Doe56φά$125,000Ναί

Οι στήλες "πρόβλεψη" Ηλικία , Γένος , και Ετήσιο εισόδημα προσδιορίστε την τιμή του "χαρακτηριστικού πρόβλεψης" Προσφορά πιστωτικής κάρτας . Σε ένα σύνολο εκπαίδευσης, το χαρακτηριστικό πρόβλεψης είναι γνωστό. Ο αλγόριθμος ταξινόμησης προσπαθεί στη συνέχεια να καθορίσει πώς επιτεύχθηκε η τιμή του χαρακτηριστικού προγνωστικού: ποιες σχέσεις υπάρχουν μεταξύ των προγνωστικών και της απόφασης; Θα αναπτύξει ένα σύνολο κανόνων πρόβλεψης, συνήθως μια δήλωση IF / THEN, για παράδειγμα:

IF (Ηλικία> 18 Ή Ηλικία <75) ΚΑΙ Ετήσιο εισόδημα> 40.000 THEN Προσφορά Πιστωτικής Κάρτας = ναι

Προφανώς, αυτό είναι ένα απλό παράδειγμα και ο αλγόριθμος θα χρειαζόταν πολύ μεγαλύτερη δειγματοληψία δεδομένων από τις δύο εγγραφές που παρουσιάζονται εδώ. Επιπλέον, οι κανόνες πρόβλεψης είναι πιθανόν να είναι πολύ πιο περίπλοκοι, συμπεριλαμβανομένων των υπο-κανόνων για τη συλλογή λεπτομερειών χαρακτηριστικών.

Στη συνέχεια, στον αλγόριθμο δίνεται ένα "σύνολο προβλέψεων" δεδομένων για ανάλυση, αλλά αυτό το σύνολο δεν διαθέτει το χαρακτηριστικό πρόβλεψης (ή απόφαση):

Δεδομένα Predictor
ΟνομαΗλικίαΓένοςΕτήσιο εισόδημαΠροσφορά πιστωτικής κάρτας
Γιάννης Χιονιάς42Μ$88,000
Mary Murray16φά$0

Αυτά τα δεδομένα προγνωστικών βοηθούν στην εκτίμηση της ακρίβειας των κανόνων πρόβλεψης και οι κανόνες στη συνέχεια τροποποιούνται μέχρι ο προγραμματιστής να θεωρήσει τις προβλέψεις αποτελεσματικές και χρήσιμες.

Μέρα με την ημέρα Παραδείγματα ταξινόμησης

Η ταξινόμηση και άλλες τεχνικές εξόρυξης δεδομένων βρίσκονται πίσω από ένα μεγάλο μέρος της καθημερινής μας εμπειρίας ως καταναλωτών.

Οι προβλέψεις για τον καιρό ενδέχεται να χρησιμοποιήσουν την ταξινόμηση για να αναφέρουν εάν η ημέρα θα είναι βροχερή, ηλιόλουστη ή συννεφιασμένη. Το ιατρικό επάγγελμα μπορεί να αναλύσει τις συνθήκες υγείας για να προβλέψει τα ιατρικά αποτελέσματα. Ένας τύπος μεθόδου ταξινόμησης, Naive Bayesian, χρησιμοποιεί την υπό όρους πιθανότητα να κατηγοριοποιήσει τα μηνύματα spam. Από την ανίχνευση απάτης έως τις προσφορές προϊόντων, η ταξινόμηση βρίσκεται πίσω από τις σκηνές κάθε μέρα, αναλύοντας τα δεδομένα και δημιουργώντας προβλέψεις.