Bloomberg

Γιατί οι γίγαντες της τεχνολογίας λατρεύουν τη φωνή σας

  • newsroom


Η Amazon έχει υποσχεθεί πως θα... βάλει την προσωπική βοηθό σε κάθε σπίτι

Η Amazon έχει υποσχεθεί πως θα… βάλει την προσωπική βοηθό σε κάθε σπίτι. Το Amazon Echo, και η Alexa (αντίστοιχο της Siri ή της Cortana) είναι τεχνητή νοημοσύνη η οποία βοηθά τους χρήστες σε αυτά που της ζητάνε, όπως η παραγγελία μίας πίτσας, ενός Uber ή ο έλεγχος απαντήσεων σε σχολικό τεστ 10χρονου παιδιού.

Από την άλλη, βέβαια, και όσο και ωραία να είναι η φωνή και η λειτουργία της Alexa, οι χρήστες γνωρίζουν πως πρέπει να της μιλάς, αργά και καθαρά αλλιώς απλά δεν ξέρει την απάντηση. Μερικοί έχουν παρομοιάσει τη συνεννόηση μαζί της με την επικοινωνία με ένα… εκνευριστικό παιδάκι.

Η φωνητική αναγνώριση και η τεχνητή νοημοσύνη που βρίσκεται από πίσω της έχει προοδεύσει πολύ τα τελευταία χρόνια. Παρόλα αυτά δεν είναι ακόμη τόσο mainstream ώστε η τεχνολογία να γίνει κατανοητή και προσιτή από όλους, προωθώντας μία νέα εποχή ανθρώπινης και μηχανικής συνεργασίας. Παρά την προαναφερθείσα πρόοδο, οι περισσότεροι από εμάς συνεχίζουν να πατούν κουμπιά ή να κάνουν κινήσεις σε touchscreens, και μάλλον θα συνεχίσουν να το κάνουν στο εγγύς μέλλον.

Τί περιορίζει την ανάπτυξη, λοιπόν; Εν μέρει πρόκειται για την τεχνητή νοημοσύνη η οποία αποτελεί τη βάση της αναγνώρισης της φωνής και η οποία έχει πολύ χώρο για να αναπτυχθεί. Υπάρχει, επίσης, μία πολύ μικρή «τράπεζα» φωνών, σε πολλές και διάφορες γλώσσες, την οποία χρησιμοποιούν οι developers για τη σύσταση της τεχνητής αυτής νοημοσύνης. Επίσης υπάρχουν προβλήματα με το θόρυβο στις συσκευές, ο οποίος μπορεί να «μπερδέψει» το ΑΙ.

Γι αυτό το λόγο, οι γίγαντες της τεχνολογίας, Amazon, Apple, Microsoft και η κινεζική Baidu έχουν ξεκινήσει ένα μακροχρόνιο άθλο για να… καταβροχθίσουν ολόκληρα terabyte ανθρώπινων φωνών. Η Microsoft έχει ήδη κατασκευάσει ψεύτικα σπίτια ανά τον κόσμο και έχει προσλάβει άτομα να μιλούν… κανονικά και καθημερινά. Προφανώς, η εταιρεία καταγράφει τις φωνές τους. Παράλληλα, κάθε ώρα η Amazon αποθηκεύει τις ερωτήσεις που γίνονται στην Alexa σε μία τεράστια ψηφιακή αποθήκη. Η Baidu συγκεντρώνει στοιχεία όλων των διαλέκτων της Κίνας.

Ο προαναφερθείς άθλος αποσκοπεί στο να μειωθούν τα λάθη της… κάθε Alexa κάτω από το 1% των περιπτώσεων.

Οι διάφορες τεχνολογικές εταιρείες, βέβαια, δε σταματάνε τις εφαρμογές της τεχνολογίας αυτής στις καθημερινές χρήσεις, χρησιμοποιώντας τες και για τη βελτίωση εκνευριστικών καθημερινών συστημάτων όπως η αυτόματη απάντηση από ΑΙ σε ταξιδιώτες στα αεροδρόμια παρά τον υπόηχο και το θόρυβο στο παρασκήνιο, ή στα drive-thru των McDonald’s.

Kι όμως στην παραπάνω λίστα δεν έχει συμπεριληφθεί η Google. Γιατί; Η απάντηση είναι απλή. Η εταιρεία-κολοσσός χρησιμοποιεί διαφορετικό τρόπο επίλυσης των προαναφερθέντων προβλημάτων αναγνώρισης των λέξεων. «Συνθέτει» τις λέξεις με πολύ μικρούς και «αγνώριστους» ήχους της καθημερινότητας. Κατ’αυτό τον τρόπο προσπαθεί να λύσει όλα τα παραπάνω προβλήματα με μία μόνο αλλαγή. Για τα data sets της, η Google συνθέτει δεκάδες χιλιάδες μικρο-ήχους από 2 μέχρι 5 δευτερόλεπτα σε διάρκεια.

Όπως και να έχει η τεχνολογία αυτή έχει πολύ δρόμο μπροστά της. Τα «neural networks» που έχουν δημιουργηθεί για την τεχνητή νοημοσύνη δεν έχουν ακόμη αποκαλύψει όλες τους τις δυνατότητες. Για εμάς τους… κοινούς θνητούς, το μόνο που μπορούμε να κάνουμε είναι να περιμένουμε τις εξελίξεις.