SpinVox convertit les messages vocaux en SMS

Cloud

Avec son service Voice-to-Screen, SpinVox se positionne sur un marché de plus d’1 milliard de clients potentiels. Petite démo en vidéo.

SpinVox est née d’une frustration. « Au sortir des réunions, j’avais toujours 8 ou 9 messages sur mon téléphone mobile« , raconte Daniel Doulton, le co-fondateur et directeur du développement, « je passais ensuite 20 minutes à les gérer alors qu’il n’y en avait qu’un ou deux réellement important. Comment être sûr de recevoir les messages sans perturber la réunion? » En transformant la voix en texte reçu sous forme de SMS. C’est sur ce principe que Daniel Doulton et sa collègue Christina Domecq ont fondé SpinVox en 2003 en Angleterre.

Réunir dans un même service la voix et la messagerie texte, une idée aussi ingénieuse qu’ambitieuse. Pour la mettre en oeuvre, SpinVox a développé la technologie Voice Message Conversion System (VMCS). Celle-ci passe notamment par la création d’un dictionnaire pour chaque langue, voire pour chaque spécificité de langue.

Le québécois se distingue du français de métropole, par exemple. Ces dictionnaires sont composés d’environ 500 000 termes et expressions courantes (à comparer aux 6 à 7000 mots que possède, en moyenne, un individu). Ils sont construits à partir de 50 millions de messages issus de 4 millions de voix différentes pour couvrir, à ce jour, quatre langues : l’anglais, l’espagnol, le français et l’allemand. Une base lexicale qui a nécessité 4 ans de développement.

Une fiabilité éprouvée à 97 %

A partir de ces dictionnaires s’opère tout un processus de reconnaissance vocal (ASR pour Automatic Speech Recognition) qui va, schématiquement, d’abord identifier le type de langage reçu afin de déterminer le type de moteur de conversion à sélectionner. Si SpinVox a développé son propre moteur, sa solution offre la souplesse de pouvoir intégrer un moteur tiers (Nuance, ViaVoice, etc.). En bout de chaîne, un processus est chargé d’interpréter le sens lexical et grammatical afin de construire un texte aussi fidèle que possible du message vocal.

Le service est fiable à 97 %, selon SpinVox. Nos courts tests se sont révélés bluffant (n’importe qui peut tester en téléphonant au 01 76 66 05 01). En cas d’échec sur quelques caractères, ils sont remplacés par des soulignés (underscore) dans le texte. « L’objectif est que le message final soit compréhensible par le destinataire« , souligne Stéphane Dubois, directeur général de SpinVox France nouvellement nommé. En cas d’incompréhension d’un terme entier ou d’un pan de phrase (un nom de marque ou de lieu, par exemple), le système fait intervenir un humain chargé de palier les limites des systèmes informatiques. Plusieurs centaines d’agents sont dédiés à cette tâche.

75 millions d’euros d’investissement

On s’en doute, le traitement du processus nécessite un backoffice lourd. SpinVox ne s’étendra pas sur ses secrets de fabrication mais l’infrastructure serveur à elle seule a nécessité 40 millions d’euros pour un total de 75 millions d’euros d’investissement essentiellement apporté par des fonds privés.

SpinVox connaît un développement rapide. Il est notamment passé de 150 personnes en avril 2007 à 350 aujourd’hui. Implanté sur 4 continents, l’entreprise a engrangé 12 contrats opérateurs et compte en signer 18 autres en 2008. Dont la France où l’entreprise vient d’ouvrir ses bureaux à Paris. Stéphane Dubois cible le volume en priorité et, donc, les trois opérateurs mobiles (les grands comptes restent bien sûr adressables pour des prestations sur mesure).

SpinVox ne devrait pas rencontrer de grosses difficultés pour séduire un ou plusieurs opérateurs. Selon ses chiffres, « 87 % des appélés répondent au message reçu par texte contre 25 % dans le cas de messages vocaux« , avance Daniel Doulton. Ce qui génère un trafic en hausse de 7 à 9 % sur les réponses en mode audio et 17 à 22 % sur les messages textuels. Une manne pour les opérateurs.

80 % de fidélisation

De plus, SpinVox a multiplié les produits. Après son offre de base VoiceMail (qui génère 80 % de fidélisation), l’entreprise a développé SpinVoix Messenger, un service que met en oeuvre l’appelant, ce qui revient à remplacer la saisie textuelle d’un SMS par un enregistrement sonore. Enfin, Web 2.0 permet de mettre à jour ses blogs, Twitter et autres page de réseau social à partir d’un simple téléphone. Des services commercialisés par les opérateurs, SpinVox se chargeant de mettre en oeuvre la solution technique à travers des modèles technologiques et économiques modulaires selon les besoins.

SpinVox n’en poursuit pas moins ses investigations technologique. Notamment un système inverse texto-voix. « Mais nous n’avons pas trouvé le marché qui en permettrait le déploiement« , justifie Daniel Doulton. Pour le moment, l’entreprise va se concentrer sur de nouveaux marchés avec l’Italie dans un premier temps, les pays de l’Est et la Chine à un horizon plus lointain.

« Je vois dans SpinVox la réplication de ce qu’à construit Logica CMG« , chez qui a officié Stéphane Dubois 11 ans durant, « un service simple à utiliser, peu coûteux et facile à déployer pour les opérateurs et générateur de revenus rapide. Un service qui ne demande qu’à exploser. » Le phénomène a déjà commencé. SpinVox servira 6 millions de comptes à la fin du premier semestre 2008. Ils auront généré près de 50 millions de conversions. L’entreprise vise les 100 millions d’utilisateurs en 2010 sur un marché potentiel de 1,3 milliard de clients finaux.

Dans cette vidéo, Stéphane Dubois revient sur l’entreprise et sa technologie, démonstration à la clé.