Skip to main content

Εξόρυξη δεδομένων με την ομαδοποίηση K-Means

StatQuest: K-means clustering (Ενδέχεται 2024)

StatQuest: K-means clustering (Ενδέχεται 2024)
Anonim

ο κ- σημαίνει αλγόριθμος ομαδοποίησης είναι ένα εργαλείο εξόρυξης δεδομένων και μηχανικής μάθησης που χρησιμοποιείται για τη συσσωμάτωση παρατηρήσεων σε ομάδες σχετικών παρατηρήσεων χωρίς προηγούμενη γνώση αυτών των σχέσεων. Με τη δειγματοληψία, ο αλγόριθμος επιχειρεί να δείξει σε ποια κατηγορία ή ομάδα, τα δεδομένα ανήκουν, με τον αριθμό των συστάδων να ορίζεται από την τιμή κ.

ο κ- σημαίνει ότι ο αλγόριθμος είναι μια από τις πιο απλές τεχνικές συγκέντρωσης και χρησιμοποιείται συνήθως στην ιατρική απεικόνιση, τη βιομετρία και τα σχετικά πεδία. Το πλεονέκτημα του κ- (clustering) σημαίνει ότι λέει τα δεδομένα σας (χρησιμοποιώντας τη μορφή που δεν παρακολουθεί) παρά να πρέπει να διδάξετε τον αλγόριθμο σχετικά με τα δεδομένα στην αρχή (χρησιμοποιώντας την εποπτευόμενη μορφή του αλγορίθμου).

Μερικές φορές αναφέρεται ως αλγόριθμος Lloyd's, ιδιαίτερα στους κύκλους της επιστήμης των υπολογιστών, επειδή ο τυπικός αλγόριθμος προτάθηκε για πρώτη φορά από τον Stuart Lloyd το 1957. Ο όρος "k-means" δημιουργήθηκε το 1967 από τον James McQueen.

Πώς λειτουργεί ο Αλγόριθμος K-Means

ο κ- ο αλγόριθμος είναι ένας εξελικτικός αλγόριθμος που κερδίζει το όνομά του από τη μέθοδο λειτουργίας του. Ο αλγόριθμος συσπειρώνει τις παρατηρήσεις κ ομάδες, όπου κ παρέχεται ως παράμετρος εισόδου. Κατόπιν, εκχωρεί κάθε παρατήρηση σε συστάδες με βάση την εγγύτητα της παρατήρησης με τον μέσο όρο της συστάδας. Στη συνέχεια, ο μέσος όρος του συμπλέγματος αναπροσαρμόζεται και η διαδικασία ξεκινά ξανά. Δείτε πώς λειτουργεί ο αλγόριθμος:

  1. Ο αλγόριθμος επιλέγει αυθαίρετα κ σημεία ως τα αρχικά κέντρα συμπλέγματος (τα μέσα).
  2. Κάθε σημείο του συνόλου δεδομένων ανατίθεται στο κλειστό σύμπλεγμα, με βάση την ευκλείδεια απόσταση μεταξύ κάθε σημείου και κάθε κέντρου συστάδων.
  3. Κάθε κέντρο συμπλέγματος αναπροσαρμόζεται ως ο μέσος όρος των σημείων σε αυτό το σύμπλεγμα.
  4. Τα βήματα 2 και 3 επαναλαμβάνονται έως ότου τα συγκροτήματα συγκλίνουν. Η σύγκλιση μπορεί να οριστεί διαφορετικά ανάλογα με την υλοποίηση, αλλά συνήθως σημαίνει ότι είτε οι παρατηρήσεις δεν αλλάζουν clusters όταν επαναλαμβάνονται τα βήματα 2 και 3 ή ότι οι αλλαγές δεν κάνουν σημαντική διαφορά στον ορισμό των ομάδων.

Επιλέγοντας τον αριθμό των συμπλεγμάτων

Ένα από τα κύρια μειονεκτήματα του κ- σημαίνει ομαδοποίηση είναι το γεγονός ότι πρέπει να καθορίσετε τον αριθμό των συμπλεγμάτων ως είσοδο στον αλγόριθμο. Όπως έχει σχεδιαστεί, ο αλγόριθμος δεν είναι σε θέση να καθορίσει τον κατάλληλο αριθμό ομάδων και εξαρτάται από το χρήστη να το εντοπίσει εκ των προτέρων.

Για παράδειγμα, εάν είχατε μια ομάδα ανθρώπων που πρόκειται να συγκεντρωθούν βάσει δυαδικής ταυτότητας φύλου ως αρσενικό ή θηλυκό, ζητώντας κ- σημαίνει αλγόριθμο που χρησιμοποιεί την είσοδο k = 3 θα αναγκάσει τους ανθρώπους σε τρεις ομάδες, όταν μόνο δύο, ή μια εισροή του k = 2, θα παρέχει μια πιο φυσική εφαρμογή.

Ομοίως, εάν μια ομάδα ατόμων ήταν εύκολα συγκεντρωμένη με βάση την κατάσταση στο σπίτι και κάλεσε το κ- σημαίνει αλγόριθμο με την είσοδο k = 20, τα αποτελέσματα μπορεί να είναι πολύ γενικευμένα για να είναι αποτελεσματικά.

Για το λόγο αυτό, είναι συχνά μια καλή ιδέα να πειραματιστείτε με διαφορετικές τιμές κ για να προσδιορίσετε την αξία που ταιριάζει καλύτερα στα δεδομένα σας. Μπορείτε επίσης να θελήσετε να εξερευνήσετε τη χρήση άλλων αλγορίθμων εξόρυξης δεδομένων στην προσπάθειά σας για γνώση που αποκτήθηκε από τη μηχανή.