Envoyer à un ami | Version à imprimer | Version en PDF

La voix devient une interface des services en ligne

par Farid Farah

La modélisation mathématique permet aujourd’hui de traiter la parole comme une donnée biométrique. La voix remplacera, un jour, l’authentification par mot de passe introduit via un clavier.

Les dix dernières années témoignent des progrès énormes réalisés dans l’amélioration de la fiabilité des systèmes de traitement automatique de la parole. Ce progrès a radicalement changé les environnements software et hardware des télécommunications. Un signal vocal, lors de son traitement par un processeur d’un smartphone, ou lors de son transport par les réseaux des opérateurs des télécommunications, est traité avec plus d’efficacité par les équipements numériques, et ce, grâce aux progrès réalisés dans la modélisation mathématique du processus de la production de la parole humaine. Ces performances scientifiques ont mené à une analyse et synthèse de la parole de qualité supérieure, à une reconnaissance automatique du locuteur et à la réalisation de codeurs de parole.

En incluant les technologies vocales dans les terminaux mobiles et ordinateurs portables, grâce à des logiciels de plus en plus performants de codage et de compression des données, la messagerie électronique vocale (Voice mail), les systèmes de traduction vocale en ligne, les terminaux intelligents, les ordinateurs individuels, les voitures connectées et les réseaux, l’avenir des télécommunications ne se fera aucunement sans évoquer le rôle primordial du traitement automatique du langage naturel joué dans le développement du Dialogue Homme/Machine. Ainsi, le lancement par Apple en 2011 de son service de reconnaissance vocale Siri permettant de commander vocalement son iPhone a simplifié la vie de son utilisateur et a, surtout, prouvé que la voix humaine occupe désormais le premier plan des usages mobiles innovants. Siri est un service qui permet à l'usager d'émettre une commande vocale, qui sera envoyée vers les serveurs Cloud d'Apple pour être analysée, afin d’exécuter l’action désirée par l’utilisateur. Un tel service est le fruit de travaux de recherche effectués dans le domaine de la production de la parole qui sont orientés vers une meilleure caractérisation quantitative de son analyse.

Speech to Text

Cette avancée a été obtenue grâce à une paramétrisation (action de modifier la structure d'un élément numérique) permettant la réduction de la largeur de bande et une représentation par un nombre réduit de paramètres pertinents. Aussi, les avancées réalisées dans l’analyse et la modélisation de la voix ont permis d’atteindre des objectifs inattendus dans le domaine de la recherche par mots clés dans le web. La technique du "Speech to Text" en est un exemple. Il s’agit d’une méthode de transcription automatique des sons des vidéos au format texte pour permettre un meilleur référencement du contenu. L’usager sera alors amené à juger le contenu d’un film avant même de l’avoir vu. La recherche d’une vidéo ou d’un programme TV web devient alors plus simple et surtout plus rapide. Malgré l’intérêt de cette solution de recherche par la parole, elle n’est toujours pas totalement démocratisée. Mais elle est d’une grande utilité dans la mesure où le nombre de vidéos présentes sur la toile a déjà dépassé le nombre de requêtes sur les moteurs de recherche. Le moteur de recherche Google est le premier à introduire la technique "Speech to Text" qui subira prochainement des améliorations inédites. Il sera possible alors de convertir du séquençage vidéo au format texte. Adobe va introduire cette technologie sur certains contenus.

Côté perspectives, l’authentification par signature vocale suscite beaucoup d’intérêts dans le renforcement de la sécurité des réseaux des télécommunications. A l’avenir, les utilisateurs qui accèdent à un réseau par un terminal mobile subiront un contrôle d’identité vocal afin de permettre de détecter des usagers non autorisés. Pour cela il est nécessaire d’implanter un système de reconnaissance vocale du locuteur déporté en ligne qui, en temps réel, authentifie la voix de l’utilisateur. Cependant, la disponibilité de cette technologie est conditionnée par la levée d’un obstacle très important. Il s’agit des limites relevées dans les terminaux dans le computing des programmes nécessaires à cette opération. Ces derniers doivent être stockés dans des serveurs Cloud. C’est pourquoi, les caractéristiques d’un réseau de communication doivent être prises en compte. Par exemple, la voix doit être codée à bas débit pour éviter une consommation trop importante de bande passante, et la transmission des communications doit reposer sur une architecture distribuée. La durée de vie d’un clavier, du moins pour certains usages et applications, est ainsi comptée…