Ένα Ngram, επίσης κοινώς αποκαλούμενο N-gram, είναι μια στατιστική ανάλυση του περιεχομένου κειμένου ή ομιλίας που πρέπει να βρούμε n (αριθμός) κάποιου είδους στοιχείου στο κείμενο.
Το στοιχείο αναζήτησης μπορεί να είναι όλα τα είδη των πραγμάτων, όπως φωνήματα, προθέματα, φράσεις ή γράμματα. Αν και το N-gram είναι κάπως ασαφές εκτός της ερευνητικής κοινότητας, χρησιμοποιείται σε διάφορους τομείς και έχει πολλές συνέπειες για τους προγραμματιστές που κωδικοποιούν προγράμματα υπολογιστών που κατανοούν και ανταποκρίνονται στη φυσική ομιλούμενη γλώσσα.
Στην περίπτωση του Google Books Ngram Viewer, το κείμενο που θα αναλυθεί προέρχεται από το τεράστιο όγκο βιβλίων που έχει σαρώσει η Google από δημόσιες βιβλιοθήκες για να συμπληρώσει τη μηχανή αναζήτησης των Βιβλίων Google. Για το Google Books Ngram Viewer, αναφέρονται στο κείμενο που πρόκειται να αναζητήσετε ως σώμα . Το πρόγραμμα προβολής του Ngram συσσωρεύεται ανά γλώσσα, αν και μπορείτε να αναλύσετε ξεχωριστά τη βρετανική και την αμερικανική αγγλική γλώσσα ή να τα βγάλετε μαζί.
Πώς λειτουργεί το Ngram
-
Μεταβείτε στο Google Books Ngram Viewer στη διεύθυνση books.google.com/ngrams.
-
Πληκτρολογήστε οποιαδήποτε φράση ή φράσεις που θέλετε να αναλύσετε. Ξεχωρίστε κάθε φράση με κόμμα. Η Google προτείνει "Albert Einstein, Sherlock Holmes, Frankenstein" για να ξεκινήσετε. Στα αντικείμενα γίνεται διάκριση πεζών-κεφαλαίων, σε αντίθεση με τις αναζητήσεις ιστού Google.
-
Πληκτρολογήστε ένα εύρος ημερομηνιών. Η προεπιλογή είναι 1800 έως 2000.
-
Επιλέξτε ένα σώμα. Μπορείτε να αναζητήσετε κείμενα ξένων γλωσσών ή αγγλικά και, επιπλέον των τυποποιημένων επιλογών, μπορείτε να παρατηρήσετε στο κάτω μέρος πράγματα όπως "Αγγλικά (2009) ή American American (2009)". Αυτά είναι παλαιότερα σωματίδια που έχει ενημερωθεί από την Google, αλλά μπορεί να έχετε κάποιο λόγο να κάνετε συγκρίσεις με παλιά σύνολα δεδομένων. Οι περισσότεροι χρήστες μπορούν να τις αγνοήσουν και να επικεντρωθούν στα πιο πρόσφατα σωματίδια.
-
Ρυθμίστε το επίπεδο εξομάλυνσης. Η εξομάλυνση αναφέρεται στο πόσο ομαλό είναι το γράφημα στο τέλος. Η πιο ακριβής αναπαράσταση θα ήταν ένα επίπεδο εξομάλυνσης 0, αλλά αυτή η ρύθμιση μπορεί να είναι δύσκολο να διαβαστεί. Η προεπιλογή είναι ρυθμισμένη στο 3. Στις περισσότερες περιπτώσεις, δεν χρειάζεται να την προσαρμόσετε.
-
Πάτα το Αναζητήστε πολλά βιβλία κουμπί.
Η Google σάς επιτρέπει να δοκιμάσετε αρκετά με το πρόγραμμα προβολής Ngram. Εάν θέλετε να ψάξετε για ψάρι το ρήμα αντί για ψάρια το ουσιαστικό, μπορείτε να το κάνετε χρησιμοποιώντας ετικέτες. Σε αυτή την περίπτωση, θα πρέπει να αναζητήσετε "fish_VERB"
Η Google παρέχει μια πλήρη λίστα εντολών που μπορείτε να χρησιμοποιήσετε και άλλες προηγμένες τεκμηρίωσης στον ιστότοπό τους.
Τι εμφανίζεται το Ngram;
Το Βιβλίο Google Ngram Viewer θα εξάγει ένα γράφημα που αντιπροσωπεύει τη χρήση μιας συγκεκριμένης φράσης στα βιβλία μέσα στο χρόνο. Εάν έχετε εισαγάγει περισσότερες από μία λέξεις ή φράσεις, θα δείτε γραμμές με κωδικό χρώματος για να αντιπαρατεθούν οι διαφορετικοί όροι αναζήτησης. Αυτό είναι αρκετά παρόμοιο με το Google Trends, μόνο η αναζήτηση καλύπτει μεγαλύτερο χρονικό διάστημα.
Μελέτη περιπτώσεων
Εξετάστε την μελέτη περίπτωσης των πιτών από ξύδι. Αναφέρονται στο Laura Ingalls Wilder Μικρή κατοικία στην πρασιάδα σειρά. Εξερευνώντας την αναζήτηση στο Web της Google για να μάθετε περισσότερα σχετικά με τις πίτες από ξύδι αποκαλύπτει ότι θεωρούνται μέρος της αμερικανικής νότιας κουζίνας και είναι πραγματικά κατασκευασμένα από ξύδι. Επιστρέφουν σε περιόδους που δεν έχουν όλοι πρόσβαση σε φρέσκα προϊόντα ανά πάσα στιγμή του χρόνου. Αλλά είναι ότι ολόκληρη η ιστορία;
Αναζήτηση Google Ngram Viewer για ξύδι πίτα και θα συναντήσετε μερικές αναφορές για την πίτα και στις αρχές και στα τέλη του 1800, πολλές αναφορές στη δεκαετία του 1940 και ένας αυξανόμενος αριθμός αναφερθέντων πρόσφατα. Ωστόσο, με ένα επίπεδο εξομάλυνσης 3 θα δείτε ένα οροπέδιο πάνω από τις αναφορές στο 1800s. Επειδή δεν υπάρχουν πολλά βιβλία που έχουν δημοσιευτεί κατά τη διάρκεια αυτής της περιόδου και επειδή τα δεδομένα μας έχουν ρυθμιστεί να εξομαλύνουν, παραμορφώνουν την εικόνα. Πιθανότατα υπήρχε ένα βιβλίο που αναφέρθηκε σε ξύδι πίτα, και πήρε μόλις μέσος όρος για να αποφευχθεί μια ακίδα. Ρυθμίζοντας την εξομάλυνση στο 0, μπορούμε να δούμε ότι αυτό συμβαίνει ακριβώς. Τα ακίδα κέντρα στο 1869, και υπάρχει μια άλλη ακίδα το 1897 και το 1900.
Είναι απίθανο ότι κανένας δεν μίλησε για τις πίτες ξυδιού τον υπόλοιπο καιρό: Υπήρχαν πιθανές συνταγές να επιπλέουν σε όλη τη χώρα, αλλά οι άνθρωποι απλά δεν γράφω σχετικά με τα βιβλία, και αυτός είναι ένας σημαντικός περιορισμός αυτών των αναζητήσεων του Ngram.




