Google lance un nouveau modèle vocal qui parle comme un humain

Posted by

On September 24, 2025

Dans son fils AI Studio, Google propose une version une Eperimentale de Gemini Live Qui Parle de Manière BeauCoup plus Naturelle que le Service existant. Elle s’appuie sur un modèle de génération native d’Audio, capable de reproire le phrasé humain.

APPRÈS NANO-BANANA, SON IMPRESSIONNANT MODÈLE DE GÉNÉRATION ET D’ÉDITION D’IMAGES, Google Met à Disposition des Développeurs un Nouveau Modèle capable de Générer de L’Audio Nativement, pour aller plus vite et Parler plus naturel. Gemini 2.5 Flash Native Audio, Comme Google L’Appelle, EST DESTIÉ À REMPLACER GEMINI LIVE, LE CONCURENT DE CHATGPT Voice Integré à Google Gemini. Les developpeurs peuvent L’essaier Sous la FORME D’UNE API DEPUIS LE 23 septembre 2025, Tandis Que le Grand Public Peut Mesure Mesure

Mise à jour de l’API en direct! 🎉 Construisez des agents vocaux plus puissants et à consonance naturelle avec des modèles audio natifs Gemini 2.5 Flash mis à jour sur l’API en direct.
– 2x appels de fonction plus fiables (tests à calcul unique).
– Améliorations pour les bavardages latéraux, la pause et la reprise de la conversation.
– détecte… pic.twitter.com/49uq0jshvy
– Philipp Schmid (@_philschmid) 23 septembre 2025

Gemini Parle Encore plus Naturelement et Fait des Pauses comme Humain

À la Manière de Moshi, le Modèle Vocal du Laboratoire Français Kyutai, Gemini 2.5 Flash Native Audio est un modèle capable de gérer des fils nativement.

Contraire à D’Autres Assistants Vocaux, Qui écotent ce que Vous Dites, Font de la Transcription en Texte, L’Envoient à Un Llm, Récupèrent Uneponse écrite et la police lire à un un modèle de synthèse vocal, gemini 2.5 Flash Audio recronna reconsonnaîte dess Sons Sons. C’EST CE QUI LE REND PLUS RAPIDE, PLUS PROCHE DE L’HUMAIN (IL FAIT DES PAUSES ET REPRODITÉ NORE MANIRE DE PARLER) ET PLUS SENSECTIBLES DE COMPRENDRE QON SON INTERLOCUTEUR FAIT DES PAUSES OU ALLEZ UNE-RÉPONNE. Un modèle comme Gemini 2.5 Flash Native Audio n’a pas été Entraîné avec des millions de textes, mais avec des millions d’estits de fils.

Depuis L'AI Studio, Google Génère du Son à Partir de Vos Questions. — Depuis L’AI Studio, Google Génère du Son à Partir de Vos Questions. // Source: Numerama

Curieusement, la version actulle de gemini 2.5 flash native audio ne peut toujours pas imiter des émotions, alors que chatppt voix le fait depuis des Mois. Il s’agit sans Doute d’UNE Limite Imposée par Google, dans le sens où Gemini A forcément été entroiîné Avec DiFFérentes émotions. Ses Réponses Sont Heureusement BeauCoup Plus Naturelles et Agréables à Écopeter: Sur s’approche de Plus en Plus de Conversations Téléphoniques. Les developpeurs peuvent dès aujourd’hui utiliser ce modèle coul, par exemple, concevoir un service client vocal qui arait la voix de gemini 2.5 flash native audio.

En l’ÉTAT, le modèle de google n’est pas relié à Internet ou aux Autres Outils Gemini, ce qui rend Moins pertinent que le vrai gemini Live (il ya plosieurs options sur le côté, mais il ne ne s’agit pas de l’assistant vocal de la partie entrée). À Terme, sur Peut Imaginer que google prepare un de Grande Refonte de Son Ia Générative Avec de Nouvelles Nombreus Capacites, Don’t UN MODE IA TRÈS AVANCÉ. La Logique Voudrait Que Gemini 3.0 Trie Avant La Fin de L’Anine. En préposé, Si Vous Souhaitez essai le Modèle d’Audio Natif, Rendez-vous Sur le Google Ai Studio.