La semaine dernière, j'ai écrit sur une startup d'IA qui développe une technologie capable de modifier, en temps réel, l' accent du discours de quelqu'un. Mais que se passerait-il si l'objectif de l'IA était plutôt de permettre aux gens de parler de n'importe quelle manière, d'être compris tels qu'ils sont, et de supprimer certains des biais inhérents à de nombreux systèmes d'IA dans le processus ?
Il y a aussi un besoin majeur pour cela, et maintenant une startup britannique appelée Speechmatics - qui a construit l'IA pour traduire la parole en texte, quel que soit l'accent ou la façon dont la personne parle - annonce un financement de 62 millions de dollars pour développer son activité.
Susquehanna Growth Equity des États-Unis a mené le tour avec la participation des investisseurs britanniques AlbionVC et IQ Capital. Ceci est la série B est un grand pas en avant pour Speechmatics. La société a été créée à l'origine en 2006 à partir de la recherche sur l'IA à Cambridge par le fondateur, le Dr Tony Robinson, et avant cela, elle n'avait levé qu'environ 10 millions de dollars (Albion et IQ font partie de ces anciens bailleurs de fonds, ainsi que In-Q, soutenu par la CIA. -Tél et autres).
Dans l'intervalle, il a constitué une clientèle d'environ 170 - il ne vend que du B2B, pour alimenter les services destinés aux consommateurs ou aux entreprises - et bien qu'il ne divulgue pas la liste complète, certains des noms incluent what3words, 3Play Media , Veritone, Deloitte UK et Vonage, qui utilisent la technologie de différentes manières, pas seulement pour effectuer des transcriptions au sens traditionnel .
Mais pour prendre des mots parlés pour aider d'autres aspects d'une fonction d'application, tels que le sous-titrage automatique, ou pour alimenter des fonctionnalités d'accessibilité plus larges.
Son moteur est aujourd'hui capable de traduire la parole en texte dans 34 langues, et en plus d'utiliser le financement à la fois pour continuer à améliorer la précision là-bas et pour le développement commercial, il ajoutera également plus de langues et examinera différents cas d'utilisation, tels que comme la construction de la parole en texte qui peut être utilisée dans l'environnement plus délicat des véhicules à moteur (où le bruit et les vibrations du moteur ont un impact sur la façon dont les IA peuvent ingérer les sons).
"Ce que nous avons fait, c'est rassembler des millions d'heures de données dans notre effort pour lutter contre les biais de l'IA. Notre objectif est de comprendre toutes les voix, dans plusieurs langues », a déclaré Katy Wigdahl, PDG de la startup (un titre qu'elle a co-détenu avec Robinson, qui s'est depuis récemment retiré d'un poste de direction).
Cela se manifeste dans l'orientation produit de l'entreprise ainsi que dans sa mission, et c'est quelque chose qu'elle cherche également à développer.
"La façon dont nous regardons la langue est globale", a déclaré Wigdahl. "Google aura un pack différent pour chaque version de l'anglais, mais notre pack comprendra tout le monde." Au départ, il ne mettait sa technologie à disposition que par le biais d'une API privée qu'il vendait aux clients ; maintenant dans le but d'attirer plus d'utilisateurs et potentiellement plus d'utilisateurs payants, il offre également des outils API plus ouverts aux développeurs pour jouer avec la technologie, et un échantillonneur glisser-déposer sur son site.
Et en effet, si l'un des défis de Speechmatics est de former l'IA à être plus humaine dans sa compréhension de la façon dont les gens parlent, l'autre est de se tailler un nom contre d'autres grands fournisseurs de technologie de synthèse vocale.
Wigdahl a déclaré que la société est aujourd'hui en concurrence avec les "big tech", c'est-à-dire les grandes entreprises comme Amazon, Google et Microsoft (qui a maintenant Nuance) qui ont construit des moteurs de reconnaissance vocale et fournissent la technologie en tant que service à des tiers.
Mais il dit qu'il obtient systématiquement de meilleurs résultats que ceux-ci dans les tests pour être capable de comprendre quand les langues sont parlées de toutes les manières possibles. (Un test qu'il m'a cité était l'étude "Racial Disparities in Speech Recognition" de Stanford, où il a enregistré "une précision globale de 82,8% pour les voix afro-américaines par rapport à Google (68,6%) et Amazon (68,6)." Il a dit que " équivaut à une réduction de 45 % des erreurs de reconnaissance vocale - l'équivalent de trois mots dans une phrase moyenne. Il a également fourni à TC une "moyenne pondérée par les concurrents":
Il y a en effet une énorme opportunité ici, cependant, si l'on considère qu'entre les petits développeurs et les géants de la technologie massifs et démesurés comme Apple, Google, Microsoft et Amazon, il y a des centaines d'entreprises géantes qui pourraient ne pas être tout à fait au niveau (ou intérêt) de construire une IA interne à cette fin, mais si vous prenez par exemple une entreprise comme Spotify, vous y êtes certainement intéressé et préféreriez certainement ne pas dépendre de ces énormes entreprises, qui sont aussi parfois leurs concurrents , et parfois leurs foils purs et simples . (Pour être clair, Wigdahl ne m'a pas dit que Spotify était un client, mais a déclaré que c'était un exemple typique du type de taille et de situation dans laquelle quelqu'un pourrait frapper à la porte de Speechmatics.)
C'est aussi en partie pourquoi les investisseurs sont si désireux de financer cette société. Susquehanna a l'habitude de soutenir des entreprises qui semblent pouvoir donner du fil à retordre aux joueurs puissants (c'était l'un des premiers et gros bailleurs de fonds de Tik Tok).
"L'équipe Speechmatics est sans aucun doute un pedigree différent de technologues", a déclaré Jonathan Klahr, directeur général de Susquehanna Growth Equity, dans un communiqué. « Nous avons commencé à suivre Speechmatics lorsque les sociétés de notre portefeuille nous ont dit que, encore et encore, Speechmatics gagnait en précision par rapport à toutes les autres options, y compris celles provenant d'acteurs « Big Tech ». Nous sommes prêts à travailler avec l'équipe pour faire en sorte que davantage d'entreprises puissent être exposées à cette technologie supérieure et l'adopter. » Klahr rejoint le plateau avec ce tour.
En effet, à mesure que la technologie se naturalise et que ceux qui la fabriquent recherchent davantage de moyens de réduire toutes les frictions qui pourraient exister autour de l'utilisation de cette technologie, la voix est devenue une opportunité majeure, ainsi qu'un point douloureux. Ainsi, avoir une technologie qui fonctionne dans la « lecture » et la compréhension de toutes sortes de voix peut potentiellement être appliqué de toutes sortes de façons.
"Notre point de vue est que la voix deviendra l'interface homme-machine de plus en plus dominante et Speechmatics est le leader de la catégorie dans l'application de l'apprentissage en profondeur à la parole, avec une catégorie définissant la précision et la compréhension des cas d'utilisation et des exigences de l'industrie", a ajouté Robert Whitby-Smith, un partenaire. à AlbionVC. "Nous avons été témoins de la croissance impressionnante de l'équipe et du produit au cours des dernières années depuis notre investissement de série A en 2019 et en tant qu'investisseurs responsables, nous sommes ravis de soutenir la mission inclusive de l'entreprise de comprendre chaque voix dans le monde."