Νέα Συνθετική φωνή και εξελίξεις στην διεπαφή ανθρώπου-υπολογιστή

1Οταν πήρα το email του Σπύρου Ράπτη, ερευνητή του Ινστιτούτου Επεξεργασίας του Λόγου (ΙΕΛ), την περασμένη Τρίτη, έμεινα κυριολεκτικά άφωνος. Προκειμένου να μου εξηγήσει τι εννοούσε όταν μου έλεγε νωρίτερα στο τηλέφωνο ότι έχουν αναπτύξει ένα λογισμικό συνθετικής φωνής που μοιάζει πάρα πολύ με την ανθρώπινη, επέλεξε να περάσει από το πρόγραμμα ένα παλιότερο άρθρο μου στην «Καθημερινή». Πατώντας το mp3 αρχείο άρχισα να ακούω μια ζεστή γυναικεία φωνή να εκφωνεί το κείμενο του ρεπορτάζ μου σε γρήγορο ραδιοφωνικό ρυθμό, χρωματίζοντας σε γενικές γραμμές φυσικά, ακολουθώντας τα σημεία στίξης.

Ακούστε στο box αριστερά τα δείγματα TtS1,2,3 και το internet mp3


Το καλύτερο ήταν ότι ενώ στην αρχή ο υπολογιστής μιλούσε σαν «ζαλισμένος», σε κάποια σημεία του κειμένου, καθώς προχωρούσε, έμοιαζε να εξοικειώνεται με το κείμενο και να διαβάζει σαν πραγματικός εκφωνητής. Αναπόφευκτα βρέθηκα μπροστά στις εφαρμογές που μια τέτοια τεχνολογία μπορεί να σημαίνει: Ανάγνωση του email ή μιας σελίδας στο Internet. Ο υπολογιστής θα μπορούσε να μου διαβάζει το δελτίο καιρού καθώς αυτό ανανεώνεται, το κινητό μου τηλέφωνο θα μπορούσε να μου δίνει στοιχεία για την κίνηση στους δρόμους, τα νέα μου βιβλία θα μπορούσαν να είναι φωνητικά κ.ο.κ.

Η ιστορία είναι παλιά. Ηδη από το 1990, ο πρώτοι γκουρού της πληροφορικής, όπως ο Μιχάλης Δερτούζος, ο Νίκολας Νεγκρεπόντε και ο Μπιλ Γκέιτς, φαντασιώνονταν έναν κόσμο στον οποίο θα αλληλεπιδρούσαμε με έξυπνες συσκευές (δηλαδή υπολογιστές σε διάφορα μέρη του σπιτιού και του γραφείου, όπως π.χ. το ψυγείο) μιλώντας μαζί τους φυσικά. Η αισιοδοξία ήταν τέτοια ώστε πολλοί προέβλεπαν τότε, ότι ήδη από το 2000 θα είχαμε πετάξει τα πληκτρολόγια και θα μπορούσαμε να απευθυνθούμε στο –εμπλουτισμένο με υπολογιστές παντού– περιβάλλον μας φωνάζοντας από την άκρη του σπιτιού εντολές του τύπου: «Παράγγειλέ μου μια πίτσα» ή «φέρε τον τελευταίο ισολογισμό της εταιρείας στην τηλεόραση του σαλονιού» και αυτοί θα μας απαντούσαν διαβάζοντας τις σχετικές εντολές κ.ο.κ. Η διεπαφή ανθρώπου – υπολογιστή διά του φυσικού λόγου, όμως, αποδείχτηκε πολύ πιο δύσκολο στοίχημα απ’ ό,τι μπορούσε να φανταστεί οποιοσδήποτε εκείνη την εποχή.

Το ΙΕΛ, το οποίο δημιουργήθηκε το 1991, προκειμένου να βοηθήσει την ελληνική γλώσσα να περάσει στις εφαρμογές των νέων τεχνολογιών, άρχισε να συλλέγει γλωσσικούς πόρους (λέξεις σε γραπτό και ήχο), να τις αποθηκεύει σε τεράστιες βάσεις δεδομένων και να αναπτύσσει από αυτές τεχνολογίες αναγνώρισης φωνής από υπολογιστές και μετατροπή του λόγου σε κείμενο από τη μια και σύνθεσης φωνής του υπολογιστή από κείμενο από την άλλη. «Στην αρχή η τεχνητή νοημοσύνη και ο κλάδος της που ασχολείται με τη σύνθεση φωνής προσπαθούσε να δημιουργήσει ένα μαθηματικό μοντέλο γι’ αυτήν, να καταλάβει πώς δουλεύει στον άνθρωπο. Ομως τα αποτελέσματα ήταν φτωχά» εξηγεί ο Σπ. Ράπτης, ερευνητής του ΙΕΛ που εργάζεται πάνω στο αντικείμενο. «Καταφέρναμε να φτιάξουμε φωνές που ακούγονταν σαν ρομπότ και αδυνατούσαμε να προσεγγίσουμε την πολυπλοκότητα της έκφρασης. Τώρα πια δουλεύουμε με μια πολύ πιο πρακτική προσέγγιση. Μας ενδιαφέρει το αποτέλεσμα» λέει ο ίδιος. Στην πρακτική αυτή προσέγγιση, ο υπολογιστής συσχετίζει γραπτές λέξεις και φράσεις πάνω σε προηχογραφημένες λέξεις και φράσεις ώστε να αποδώσει τις σωστές.

Αλγόριθμοι σε δεύτερο και τρίτο επίπεδο επεξεργάζονται τη χροιά, τα σημεία στίξης και το συναίσθημα που πρέπει να αποπνέει η εκφώνηση. Τα αποτελέσματα μετά δύο εκδόσεις του λογισμικού τα προηγούμενα χρόνια, είναι πλέον εντυπωσιακά. Το πρόγραμμα της συνθετικής φωνής, εντούτοις, παραμένει κατάλληλο για συγκεκριμένες εφαρμογές και όλα δείχνουν ότι βάζει μεν ένα σημαντικό λιθαράκι στο οικοδόμημα της σχέσης ανθρώπου – μηχανής, όμως θα πρέπει να μπουν πολλά ακόμα. «Δεν θα έβαζα ακόμα τα προγράμματα που φτιάχνουμε να διαβάσουν λογοτεχνικά κείμενα, για παράδειγμα, θα τα κρατούσα στο επίπεδο των καθημερινών εφαρμογών» λέει ο κ. Ράπτης. Οι εφαρμογές όμως δεν είναι αμελητέες πλέον. Καθώς ο όγκος της πληροφορίας στο Internet αυξάνεται με τρόπο που να απαγορεύει πρακτικά την κατανάλωσή της, οι τεχνολογίες συνθετικής φωνής αναμένεται να παίξουν σημαντικό ρόλο στον εμπλουτισμό των ιστοσελίδων στο Internet αλλά και τη μεταφορά τους στα νέα κινητά τηλέφωνα. Σε πολλές περιπτώσεις θα είναι πιο πρόσφορο πλέον να «ακούς» παρά να διαβάζεις μια «σελίδα».

Αντλούσαν άραγε οι πρώτοι εκείνοι οραματιστές την υπέρμετρη τότε αισιοδοξία από το πρώτο μπουμ της νέας οικονομίας, τη δημιουργία του δείκτη NASDAQ και την είσοδο των πρώτων εταιρειών πληροφορικής στην κατάταξη των 50 πιο εύρωστων εταιρειών της λίστας Forbes; Ή μήπως είχαν απλώς το προνόμιο να εκφράσουν το όνειρο της παιδικής ηλικίας μιας επανάστασης που αλλάζει τον κόσμο μας ταχύτατα; «Το όραμα παραμένει, όπως παραμένουν και τα προβλήματα στην ανάπτυξη διαλόγου με τις μηχανές. Δείτε το Google. Κάνει ρηχή στατιστική δουλειά σε τεράστιο εύρος πληροφοριών. Αν πας σε βάθος πρέπει να στενέψεις το αντικείμενο, οπότε αναπτύσσουμε μόνο πολύ ειδικές εφαρμογές, όπως για παράδειγμα τηλεφωνικά κέντρα. Αλλοι κλάδοι, όπως οι νευροεπιστήμες, η λογοθεραπεία, η τεχνητή νοημοσύνη, εξακολουθούν να προσπαθούν να καταλάβουν πώς δουλεύει ο ανθρώπινος λόγος. Τα δικά τους ερευνητικά αποτελέσματα θα μας επιτρέψουν σιγά σιγά να φτάσουμε και στον τελικό στόχο».

Το λογισμικό «Συνθετική Φωνή» κυκλοφορεί από την Innoetics εταιρεία τεχνοβλαστών που δημιουργήθηκε από το ερευνητικό κέντρο Αθηνά, στο οποίο ανήκει το ΙΕΛ. Παρουσιάστηκε την περασμένη Τετάρτη στον χώρο του Ιδρύματος Ευγενίδου, όπου για πρώτη φορά το ερευν. κέντρο Αθηνά παρουσίασε το σύνολο του έργου του στις νέες τεχνολογίες, τον σημασιολογικό ιστό, τη γλώσσα και την εκπαίδευση.

Advertisements
  1. No trackbacks yet.

Σχολιάστε

Εισάγετε τα παρακάτω στοιχεία ή επιλέξτε ένα εικονίδιο για να συνδεθείτε:

Λογότυπο WordPress.com

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό WordPress.com. Αποσύνδεση / Αλλαγή )

Φωτογραφία Twitter

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Twitter. Αποσύνδεση / Αλλαγή )

Φωτογραφία Facebook

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Facebook. Αποσύνδεση / Αλλαγή )

Φωτογραφία Google+

Σχολιάζετε χρησιμοποιώντας τον λογαριασμό Google+. Αποσύνδεση / Αλλαγή )

Σύνδεση με %s

Αρέσει σε %d bloggers: