Ξοδεύω πολύ χρόνο για την έρευνα για άρθρα και πολύ συχνά σκέφτομαι το αντικείμενο για ένα άρθρο ενώ περπατάω στο σταθμό του τρένου ή όταν έξω και περίπου γενικά.
Ένα βράδυ ενώ περπατούσα τα 1.5 μίλια από το σταθμό από τη δουλειά μου σκέφτηκα "δεν θα ήταν καλό αν μπορούσα να καταγράψω αυτό που ήθελα να πω και στη συνέχεια να το μεταγράψατε αυτόματα σε ένα αρχείο κειμένου το οποίο θα μπορούσα να επεξεργαστώ και να μορφοποιήσω αργότερα" .
Έχω ξοδέψει πολλές ώρες παρακολουθώντας τις διάφορες διαθέσιμες επιλογές αναγνώρισης φωνής και υπαγόρευσης, συμπεριλαμβανομένης της εγγραφής απευθείας μέσω ενός μικροφώνου χρησιμοποιώντας λογισμικό υπαγόρευσης στο Linux, καταγράφοντας το αρχείο σε μορφή MP3 ή WAV και μετατρέποντάς το μέσω της γραμμής εντολών, καθώς και χρησιμοποιώντας το Chrome και εφαρμογές Android.
Αυτό το άρθρο αναδεικνύει τα ευρήματά μου μετά από ημέρες σκληρής εργασίας.
Επιλογές Linux
Η προσπάθεια να βρεθεί λογισμικό υπαγόρευσης και αναγνώρισης φωνής στο Linux δεν είναι τόσο εύκολη όσο θα μπορούσε να είναι και οι διαθέσιμες επιλογές δεν είναι τόσο έξυπνες.
Αυτή η σελίδα της wikipedia περιέχει μια λίστα δυνατών επιλογών, όπως η CMF Sphinx, Julius και Simon.
Χρησιμοποιώ το SparkyLinux που βασίζεται στο Debian Testing αυτή τη στιγμή και μπορώ να σας πω ότι το μόνο πακέτο αναγνώρισης φωνής που είναι διαθέσιμο στα αποθετήρια είναι το Sphinx.
Τα εγγενή προγράμματα Linux που κατέληξα να προσπαθώ ήταν το PocketSphinx, το οποίο χρησιμοποίησα για να μετατρέψω τα αρχεία WAV σε κείμενο και το Freespeech-VR που είναι μια εφαρμογή python που σας επιτρέπει να καταγράφετε απευθείας από ένα μικρόφωνο.
Δοκίμασα επίσης μερικές εφαρμογές Chrome, συμπεριλαμβανομένων των VoiceNote II και Dictanote.
Τέλος, δοκιμάσαμε τις εφαρμογές Android "Dictation and Email" και "Talk And Talk Dictation".
Freespeech-VR
Το Freespeech-VR δεν είναι διαθέσιμο στις τυπικές αποθήκες. Έχω κατεβάσει τα αρχεία από εδώ.
Μετά τη λήψη και την εξαγωγή των περιεχομένων του αρχείου zip άνοιξα ένα τερματικό και μεταφέρθηκα στο φάκελο όπου εξήχθησαν τα αρχεία. Πληκτρολόγησα την ακόλουθη εντολή για να ανοίξω το freespeech-vr.
sudo python freespeech-vr
Έχω ένα ζευγάρι ακουστικών με ένα αρκετά καλό μικρόφωνο και μια αρκετά σαφή νότια αγγλική προφορά.
Στο παράθυρο freespeech-vr εμφανίστηκε το ακόλουθο κείμενο:
Καλώς ήλθατε στα σκυλιά μονάδων της έκβασης Σήμερα Έχετε εξασφαλίσει Πώς να διαχειριστεί Δοκιμές Ένας πρέπει να δοκιμάσετε Πότε Για να χρησιμοποιήσει το κείμενο Ο τρόπος ομιλίας Ι το να ο καθένας ήταν μόνο σε ένα να ελπίζουμε να μείνετε και τα μέσα σε ένα κοτόπουλα χρυσό ως σύστημα Το Ea όταν το όνομά μου το επόμενο offch καλεί τηλέφωνο Αυτό το αρχείο Σύντομα αρκετά περιπτώσεις τηλέφωνο στο Hands-Space το σφίξιμο Πηγαίνοντας Αυτό δεν είναι ένα τηλέφωνο θα μοιραστούν Ένα εκπαιδευμένο και και εργαλεία Χρήση μιλώντας Όταν τελειώσατε Πες ένα χρησιμοποιημένο αρχείο Τελευταίο a ιστορία A Και χρησιμοποιώντας ένα από το Πότε είναι πολύ το πώς η επιτυχία Αυτό το Linux ήταν όσο Αποφεύγετε είναι
Θα ήθελα απλώς να πω τώρα ότι δεν πρόκειται για την ιστοσελίδα της Μονάδας των Σκύλων και σε καμία περίπτωση δεν ανέφερα τίποτα να κάνει με τα Golden Kickens. Στην πραγματικότητα προσπαθούσα να περιγράψω τη διαδικασία χρήσης λογισμικού αναγνώρισης φωνής.
Δοκίμασα το λογισμικό μερικές φορές, συμπεριλαμβανομένου του διαφορετικού βήματος και της ταχύτητας, αλλά η ακρίβεια ήταν κακή.
PocketSphinx
Το PocketSphinx είναι σε θέση να λάβει ένα αρχείο WAV και να το μετατρέψει σε κείμενο χρησιμοποιώντας τη γραμμή εντολών. Το PocketSphinx διατίθεται μέσω των αποθετηρίων του Debian και θα πρέπει να είναι διαθέσιμο για τις περισσότερες διανομές.
Το κύριο ζήτημα που βρήκα με το PocketSphinx είναι ότι χρειάζεστε σχεδόν ένα βαθμό στις έννοιες της φωνητικής αναγνώρισης, αρχεία γλώσσας, λεξικά και πώς να εκπαιδεύσετε το σύστημα.
Μετά την εγκατάσταση του PocketSphinx θα πρέπει να μεταβείτε στον ιστότοπο CMF Sphinx και να διαβάσετε όσο το δυνατόν περισσότερες πληροφορίες. Πρέπει επίσης να κάνετε λήψη του παρακάτω αρχείου μοντέλου.
- Αγγλικό αγγλικό μοντέλο γενικής γλώσσας
(Εάν δεν είστε εγγενής αγγλικός ομιλητής επιλέξτε το μοντέλο γλώσσας που είναι κατάλληλο για εσάς).
Η τεκμηρίωση για το PocketSphinx και το Sphinx γενικά είναι δύσκολο να κατανοηθεί για το απλό άτομο αλλά από αυτά που μπορώ να φτιάξω τα αρχεία λεξικού χρησιμοποιούνται για να δώσουν μια λίστα με πιθανές λέξεις και τα μοντέλα γλώσσας έχουν μια λίστα δυνητικών προφορών.
Για να δοκιμάσω το PocketSphinx χρησιμοποίησα μια εγγραφή της δικής μου φωνής, ένα απόσπασμα από τον Al Pacino στο "The Devils Advocate" και ένα απόσπασμα από το "Morgan Freeman". Το σημείο αυτό ήταν να δοκιμάσω διαφορετικές φωνές και για μένα δεν υπάρχει κανείς που να μπορεί να πει μια ιστορία τόσο καθαρά όσο ο Morgan Freeman και κανείς δεν παραδίδει μια γραμμή όπως ο Al Pacino.
Για να λειτουργήσει το PocketSphinx χρειάζεται ένα αρχείο WAV και πρέπει να είναι σε μια συγκεκριμένη μορφή. Εάν το αρχείο βρίσκεται σε μορφή MP3, χρησιμοποιήστε την εντολή ffmpeg για να το μετατρέψετε σε μορφή WAV:
ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav
Για να εκτελέσετε το PocketSphinx, χρησιμοποιήστε την ακόλουθη εντολή:
pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile φωνή2.wav -lm cmusphinx-5.0-el-us.lm 2> voice2.log
Το pocketsphinx_continuous παίρνει ένα αρχείο WAV και το μετατρέπει σε κείμενο.
Στην παραπάνω εντολή το pocketsphinx λέγεται ότι χρησιμοποιεί ένα αρχείο λεξικού με όνομα "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" με το μοντέλο γλώσσας "cmusphinx-5.0-el-us.lm". Το αρχείο που μετατρέπεται σε κείμενο ονομάζεται voice2.wav (η οποία είναι μια ηχογράφηση που έκανα με τη φωνή μου). Τέλος, τα 2> τοποθετούν όλη τη λεπτομερή έξοδο που δεν χρειάζεται απαραιτήτως σε ένα αρχείο που ονομάζεται voice2.log. Τα πραγματικά αποτελέσματα της δοκιμής εμφανίζονται μέσα στο παράθυρο τερματικού.
Τα αποτελέσματα με τη φωνή μου έχουν ως εξής:
καλωσορίστε στο επόμενο για καλά και όχι αυτή την εβδομάδα θέμα σχετικά με το ποια λογισμικό αναγνώρισης σε ένα λεπτό
Τα αποτελέσματα δεν είναι τόσο τρομακτικά όσο με το freespeech-vr, αλλά δεν είναι ακόμα πραγματικά χρήσιμα. Προσπάθησα στη συνέχεια να χρησιμοποιήσω το PocketSphinx με τον Al Pacino, αλλά αυτό δεν επέστρεψε καθόλου τα αποτελέσματα.
Τέλος, προσπάθησα να χρησιμοποιήσω τη φωνή της Morgan Freeman από την ταινία "Bruce Almighty" και εδώ είναι τα αποτελέσματα:
000000000: θα την κάνουμε000000001: όλα είναι τόσο σκληρά ναι την ημέρα που τώρα τώρα ναι αυτό είναι το πιο ζωντανό είμαι μέρος από το καυτό000000002: στον ανελκυστήρα που είναι το κλειδί από ένα κομμάτι του μπέιζμπολ η ώρα ή ξέρεις τι να κάνεις στις ζωές000000003: ποιες είναι αυτές που θα ανακάμψουν000000004: δεν το έγραψαν000000005: Έχουν για μένα ακριβώς έξω000000006: πρέπει να είστε κανόνες000000007: Σας περιμένω000000008: και έμαθε εδώ ότι ήταν μια εικόνα είναι το χριστουγεννιάτικο κόμμα δολοφόνος000000009: Αποδεικνύεται ένας από τους τρόπους για να γράψετε o. κώλο σκέφτηκα λίγοι πάντα φορούν ένα000000010: όπως το πρόβλημα ενωμένο δεν θα δώσει το καλό που είμαι εκτιμάται εκείνη τη στιγμή όταν δεν είχαμε όλα όσα νομίζετε ότι είμαι στον κόσμο θα σπίτια και έχω δει ότι000000011: ένας πατέρας που το έχει000000012: Τι πολλά γι 'αυτό000000013: κάνει αυτό000000014: όλα όσα εσείς δεν πέφτουν για πολλά000000015: Δεξιά το φθινόπωρο000000016: καλά κρατήστε μόνο για μένα000000017: είναι δυσαρεστημένος εάν σκέφτομαι πάρα πολύ ότι πρόκειται να έχουν ένα ότι αυτό θα όλα αυτά που παντρεύτηκαν σε ένα ήταν δεν κάνουμε μου αρέσει το αντίθετο με τον τρόπο
Η δοκιμή μου δύσκολα μπορεί να θεωρηθεί επιστημονική και οι προγραμματιστές του PocketSphinx μπορούν να δηλώσουν ότι δεν χρησιμοποιώ σωστά το λογισμικό. Υπάρχει επίσης μια τεχνική που ονομάζεται φωνητική εκπαίδευση, η οποία μπορεί να χρησιμοποιηθεί για τη δημιουργία καλύτερων λεξικών και αρχείων γλώσσας.
Η κυρίαρχη γνώμη μου όμως είναι ότι είναι πολύ δύσκολη για την καθημερινή καθημερινή χρήση.
VoiceNote II
Το VoiceNote II είναι μια εφαρμογή Chrome που χρησιμοποιεί το API αναγνώρισης Google Voice.
Εάν χρησιμοποιείτε τα προγράμματα περιήγησης Chrome ή Chromium, μπορείτε να εγκαταστήσετε το VoiceNote II μέσω του Web Store.
Τα εικονίδια στο VoiceNote II παρουσιάζονται με περίεργο τρόπο καθώς χρειάζεται να ρυθμίσετε τη γλώσσα στο κάτω μέρος του παραθύρου και το κουμπί επεξεργασίας βρίσκεται επίσης στο κάτω μέρος, ωστόσο το κουμπί εγγραφής βρίσκεται στην πάνω δεξιά θέση.
Το πρώτο πράγμα που πρέπει να κάνετε είναι να επιλέξετε μια γλώσσα και αυτό μπορεί να επιτευχθεί κάνοντας κλικ στο εικονίδιο του κόσμου.
Για να ξεκινήσετε την εγγραφή, κάντε κλικ στο εικονίδιο μικροφώνου και αρχίστε να μιλάτε στο μικρόφωνο. Για τα καλύτερα αποτελέσματα που βρήκα μιλώντας αργά ήταν το κλειδί, έτσι ώστε το λογισμικό θα είχε την ευκαιρία να συμβαδίσει.
Τα αποτελέσματα δεν ήταν μεγάλα, όπως φαίνεται παρακάτω:
Γεια σας και καλώς ήρθατε να συνδεθείτε. Go-Travels.com σήμερα άρθρα σχετικά με φωνή για μετατροπή κειμένου dunelm farrell ύφεση 2008 ως μετατροπές και είπε καλά υποστηρίζεται ο καλύτερος τρόπος βρήκα το φωνητικό κείμενο addon για να δείξει 2014debian ή rpm πακέτο ανοίξτε το τύπο φωνής για να ομιλία στο κείμενο ανοίξτε το αν θέλετε να επιλέξετε vs επιλέξατε στο edinburgh γαλλικό γερμανικό σας πάρει το χρόνο στο Ηνωμένο βασίλειο στο θαλάσσιο microphonewhat τελειώσατε να γράφετε το κείμενό σας ως αρχείο κειμένου στην επιτυχία της και αυτό είναι πολύ συνηθισμένο αγγλικό προφορά από το νότο της Αγγλίας καλύτερα γι 'αυτό, αλλά πηγαίνω στο textvia αυτό torrentalong με το πραγματικό έγγραφο και μπορείτε να δείτε για τα λάθη που σας makethank για listeningfriends
Dictanote
Το Dictanote είναι ένα άλλο App του Chrome που μπορεί να χρησιμοποιηθεί για λόγους υπαγόρευσης και συναντήθηκε ως πιο διαισθητικό αλλά τα αποτελέσματα δεν ήταν καθόλου καλύτερα από το VoiceNote II.
Χρησιμοποιούσα μόνο τη δοκιμαστική έκδοση του Dictanote που σας εμποδίζει στη δημιουργία νέων εγγράφων, αλλά σας επιτρέπει να μιλάτε πάνω σε κείμενο που βρίσκεται ήδη στον επεξεργαστή. Ήμουν σε θέση να δοκιμάσω την αναγνώριση φωνής, αλλά τα αποτελέσματα δεν ήταν καλύτερα από το VoiceNote II και γι 'αυτό δεν υπέγραψα την έκδοση pro.
Υπαγόρευση και ταχυδρομείο
Το "Dictation And Mail" είναι μια εφαρμογή Android που χρησιμοποιεί το εγγενές API αναγνώρισης φωνής Google.
Τα αποτελέσματα από την "υπαγόρευση και αλληλογραφία" ήταν πολύ καλύτερα από ό, τι το άλλο πρόγραμμα προσπάθησε μέχρι τώρα.
Γεια σας καλωσορίζω στο lifewire του Linux., σήμερα μιλάμε για τη μετατροπή του ήχου στο κείμενο
Το κόλπο με το "Dictation and Mail" είναι να μιλάς αργά και να προφέρεσαι, όπως μπορείτε και με μια ομοιόμορφη προφορά.
Αφού ολοκληρώσετε την ομιλία, μπορείτε να στείλετε τα αποτελέσματα με email στον εαυτό σας.
Ομιλία και ομιλία υπαγόρευσης
Η άλλη εφαρμογή Android που προσπάθησα ήταν "Ομιλία και ομιλία υπαγόρευσης".
Η διεπαφή για αυτή την εφαρμογή ήταν η καλύτερη από τη δέσμη και η αναγνώριση φωνής λειτούργησε πολύ καλά. Μετά την καταγραφή της υπαγόρευσης μπορώ να μοιραστώ τα αποτελέσματα με διάφορους τρόπους, μεταξύ άλλων μέσω ηλεκτρονικού ταχυδρομείου.
καλωσόρισμα στο linux Go-Travels.com σήμερα μιλάμε για μετατροπή ομιλίας σε κείμενο
Όπως μπορείτε να δείτε το παραπάνω κείμενο είναι περίπου τόσο σαφές όσο μπορείτε να περιμένετε. Μιλώντας αργά είναι το κλειδί.
Περίληψη
Το εγγενές Linux έχει κάποιο τρόπο να πάει όσον αφορά την αναγνώριση φωνής και συγκεκριμένα την υπαγόρευση. Υπάρχουν ορισμένες εφαρμογές που χρησιμοποιούν το API του Google Voice, αλλά δεν είναι ακόμη καταχωρημένες σε αποθετήρια.
Οι εφαρμογές του ChromeOS είναι λίγο καλύτερες, αλλά με τα καλύτερα αποτελέσματα επιτεύχθηκαν χρησιμοποιώντας το κινητό μου Android. Ίσως το τηλέφωνο να έχει ένα καλύτερο μικρόφωνο και ως εκ τούτου το λογισμικό αναγνώρισης φωνής έχει περισσότερες πιθανότητες μετατροπής.
Προκειμένου η φωνητική αναγνώριση να γίνει πραγματικά χρήσιμη, πρέπει να είναι πιο διαισθητική, με λιγότερη απαιτούμενη ρύθμιση. Δεν πρέπει να χρειαστεί να μπερδευτείτε με γλωσσικά μοντέλα και λεξικά για να το καταστήσετε κατανοητό.
Εκτιμώ, ωστόσο, ότι ολόκληρη η τέχνη της αναγνώρισης φωνής είναι πολύ δύσκολη, διότι όλοι έχουν διαφορετική φωνή και υπάρχουν τόσα διαλέκτια από περιοχή σε περιοχή σε μια χώρα, χωρίς να ανησυχούν για τις εκατοντάδες γλώσσες που χρησιμοποιούνται σε όλο τον κόσμο.
Η ανάλυσή μου, επομένως, είναι ότι το λογισμικό αναγνώρισης φωνής εξακολουθεί να λειτουργεί σε εξέλιξη.