Le chatbot IA d’OpenAI n’était jusqu’ici qu’une simple boîte de dialogue, mais aujourd’hui, il apprend à comprendre vos questions d’autres manières.

Jusqu’à maintenant, la plupart des mises à jour apportées à ChatGPT par OpenAI concernaient les questions auxquelles il peut répondre, les informations auxquelles il peut accéder et la mise en place de modèles IA améliorés. Mais dans sa dernière évolution, la société de développement d’intelligence artificielle s’est concentrée sur la façon dont les utilisateurs interrogent le chatbot IA. En effet, l’entreprise a déployé une nouvelle version de son service qui permet d’interagir avec ChatGPT en parlant à haute voix ou en envoyant une photo, en plus des invites textuelles classiques. Selon OpenAI, ces nouvelles fonctionnalités seront disponibles très prochainement pour les abonnés à ChatGPT Plus et pour tous les autres « peu de temps après ».

ChatGPT intègre un nouveau modèle performant pour la synthèse vocale

Dans son fonctionnement, la partie vocale de ChatGPT est assez classique. Vous appuyez sur un bouton, prononcez votre question et le chatbot d’OpenAI va la convertir en texte pour la traiter. Ce qui est intéressant c’est que la réponse en retour va également être convertie à voix haute. Cela devrait donc ressembler à une conversation avec un assistant vocal, mais OpenAI espère que les interactions et les réponses seront meilleures grâce à l’amélioration des modèles IA sous-jacents. D’ailleurs, les assistants virtuels comme Alexa ou Google Assistant sont en train d’être repensés pour s’appuyer sur les grands modèles de langage (LLM), ChatGPT garde juste une longueur d’avance.

Lire aussi :  L’Union européenne veut imposer une meilleure autonomie sur les smartphones et les tablettes

Le modèle speech-to-text baptisé Whisper d’OpenAI assure le travail de conversion de la parole au texte et la société lance un nouveau modèle text-to-speech qui effectue l’inverse (conversion du texte à la parole). Selon la société, ce nouveau modèle peut générer « un son semblable à celui d’un humain à partir d’un simple texte et de quelques secondes d’échantillon de parole ». Vous pourrez choisir la voix qu’utilise ChatGPT parmi 5 options.

OpenAI a de grandes ambitions pour ce dernier et travaille actuellement avec Spotify pour traduire des podcasts dans d’autres langues, tout en conservant les timbres de voix. La société pourrait donc jouer un rôle important dans le domaine des voix synthétiques à l’avenir. Néanmoins, la société semble également méfiante sur de possibles utilisations problématiques, c’est pourquoi l’utilisation de ce modèle n’est pas accessible au grand public et limitée à des partenariats spécifiques. Sur son blog, OpenAI écrit : « Ces capacités présentent également de nouveaux risques, comme la possibilité pour des acteurs malveillants d’usurper l’identité de personnalités publiques ou de commettre des fraudes ».

ChatGPT se rapproche d’un moteur de recherche multimodal

En ce qui concerne les requêtes par images, ChatGPT essaiera de comprendre ce que vous demandez (et vous répondra en conséquence) à partir d’une photo que vous lui fournirez. Pour préciser votre demande, vous pouvez également utiliser une palette d’outil de dessin ou apporter des suggestions à l’oral ou par texte. C’est là que le va-et-vient avec ChatGPT est utile, plutôt que d’effectuer une recherche, d’obtenir une mauvaise réponse et d’effectuer une nouvelle recherche, vous pouvez demander au chatbot d’affiner sa réponse au fur et à mesure, un peu comme un moteur de recherche multimodal.

Lire aussi :  La RTX 4090 82% plus puissante que la RTX 3090

Il est évident que la recherche d’images présente également des risques, en particulier si vous demandez à ChatGPT de vous parler d’une personne physique. OpenAI affirme avoir délibérément limité la capacité de son chatbot IA à analyser et à faire des déclarations directes sur les personnes, pour des raisons de précision et de respect de la vie privée.