Google est de retour avec un autre service d’IA : cette fois, un programme de dictée hors ligne utilisant son architecture « Gemma ». Mais plutôt que de l’inclure dans l’application Gemini ou en tant que fonction Gemini, la société a décidé de la déployer dans une application iPhone dédiée, avec le très nom accrocheur de « Google AI Edge Eloquent ».
J’ai décidé d’essayer l’application le jour de sa sortie, même si la politique de confidentialité m’a fait réfléchir. Google indique que votre emplacement, vos contacts, vos identifiants, les diagnostics de l’appareil, vos coordonnées, le contenu de l’utilisateur, vos données d’utilisation et « autres » données peuvent être liés à vous, tandis que les achats et autres diagnostics peuvent être collectés mais non liés à vous. Cela représente beaucoup de données, en particulier pour une application qui annonce que « l’audio, les conversations confidentielles et les données personnelles ne quittent jamais votre appareil », et je ne suis pas sûr d’avoir envie de télécharger l’application autrement. Mais comme le dit le proverbe, si un service est gratuit, toi sont le produit. J’ai contacté Google pour obtenir des éclaircissements ici et je mettrai à jour cette histoire si j’ai une réponse.
Comment essayer la nouvelle application de transcription IA de Google
Une fois que vous avez téléchargé l’application, la configuration est simple : vous enregistrez un exemple de phrase que l’application vous demande de prononcer, puis faites un choix : « Mode sur l’appareil », qui est entièrement hors ligne et stocke vos conversations sur votre appareil en ligne ; ou « Polissage amélioré du texte », qui conserve le audio sur votre appareil, mais utilise Gemini pour « peaufiner » votre texte, ce qui vous oblige à envoyer des données vers le cloud (et c’est probablement là que vont toutes les données de politique de confidentialité susmentionnées). Cependant, vous n’aurez pas besoin de garder Gemini activé pour que l’application effectue une modification de base de votre transcription : de par sa conception, l’application supprime les mots « de remplissage » comme « euh ». Gardez à l’esprit que l’application semble s’ouvrir par défaut en mode « Polissage amélioré du texte » – du moins, c’est ainsi que cela a fonctionné de mon côté. Mais une simple pression sur une bascule dans le coin supérieur droit de l’écran principal vous fait passer en « Mode sur appareil ».
J’ai eu quelques difficultés à faire fonctionner l’application : chaque fois que j’essayais de la tester, elle prétendait que je ne parlais pas du tout. Mais après avoir couplé les AirPod avec mon iPhone et les avoir dissociés, l’application a semblé fonctionner. Pour tester l’application, j’ai joué l’intro de cette vidéo YouTube d’Audio University, entièrement basée sur le dialogue. Une fois que l’application a fonctionné, elle a immédiatement commencé à transcrire la vidéo, avec une précision presque parfaite, du moins à la fin. Je regardais l’application saisir des mots incorrects, puis je les rétractais et les remplaçais à mesure que les mots suivants fournissaient le contexte. Une fois l’enregistrement terminé, la transcription était presque identique à la transcription de la vidéo, à l’exception de quelques bizarreries : elle pensait à tort « Si c’est notre première réunion » était « C’est notre première réunion » et a enregistré une seule phrase deux fois. Mais à part ça, c’est une transcription totalement utilisable du début de la vidéo.
À partir de là, vous disposez d’un certain nombre d’options, surtout si vous invitez les Gémeaux à vous aider. Dès le départ, vous pouvez appuyer sur une icône en forme de crayon sur la transcription pour la modifier manuellement, au cas où vous souhaiteriez corriger l’un des textes que l’IA a mal « peaufinés ». Au-dessus, vous pouvez afficher les « Statistiques d’utilisation », y compris le nombre de mots prononcés, le nombre de mots prononcés par minute et le nombre de modifications apportées par l’IA. Si vous activez Gemini, vous aurez accès à des outils d’édition d’IA supplémentaires, notamment « Points clés », « Formel », « Court » et « Long ». Lorsque vous êtes satisfait de la transcription, vous pouvez appuyer sur le bouton Copier pour déplacer le texte vers votre presse-papiers et le coller ailleurs. Dans l’onglet « Historique », vous pouvez consulter vos transcriptions précédentes, et y revenir pour les éditer (manuellement ou avec l’IA). Dans l’onglet « Dictionnaires », vous pouvez ajouter des mots obscurs que vous utilisez fréquemment mais que l’IA pourrait ne pas détecter, améliorant ainsi la précision de vos enregistrements à l’avenir.
Lors de mes brefs tests, l’application fonctionne bien et j’apprécie la possibilité de l’utiliser uniquement sur l’appareil. J’envisagerais certainement de l’utiliser sur les transcriptions intégrées d’iOS si cela semblait plus rapide ou plus précis, d’autant plus qu’il existe ici des fonctionnalités plus robustes, en supposant que l’appareil soit vraiment fait signifie garder mes données hors des mains de Google.