Follow

Mastodon, saurais/connaîtrais tu un logiciel (autant que possible libre) qui fait de la reconnaissance vocale et qui en sort un fichier texte?

J'ai tesseract-ocr pour les images vers textes, et ça fonctionne vraiment énormément bien. Mais je sais pas trop quoi prendre pour de l'audio. ALors si t'as une idée, des conseils ,des avis, n'hésites pas.

Et si tu sais pas, que ça t'intéresse, tu peux boost :)

Merci de ton aide :)

@Sp3r4z Je ne connais pas de logiciels libres pour ça... seulement les produits commerciaux de Nuance et les APIs de Google (Speech API de Google Cloud), Vocapia et IBM (Watson Speech to Text).

Mozilla essaie au moment de obtenir un « corpus » en anglais suffisamment grand pour entraîner un modèle libre, et on peut contribuer à voice.mozilla.org, mais ça va prendre du temps...

@arx D'accord, merci pour tous ces détails, c'est intéressant. Même si en effet idéalement ne pas dépendre d'un cloud propriétaire m'embête :/

@Sp3r4z Oui. :( C'est vraiment un problème de "Big Data", à mon avis: Pour developper un bon modèle, on a besoin de beaucoup de données, c'est pourquoi les choses comme ça fonctionnent dans le cloud, pour gagner des nouvelles données... Et, en plus, les données sont trop souvent privée! :/

@arx C'est en effet différent de l'écrit (manuscrit ou numérique), qui est peut-être plus simple à appréhender pour une machine, je ne sais pas.

Et c'est bien dommage, parce que ça serait vraiment un truc intéressant à avoir. Même si l'OCR est plus fréquent.

@Sp3r4z si tu trouves ca m'interresse aussi. A ma connaissance rieb qui fonctionne sans apprentissage.

@tuxicoman Forcément il y aura de l'apprentissage ,comme l'OCR en a aussi (en une mesure moindre, je suppose). Mais je me demandais s'il existait un truc pour le faire.

C'est partie, ma question, des sous-titres automatique de Youtube, parce que j'avais besoin de récupérer une conf de 30min en format texte. (pour pouvoir retrouver facilement les sujets abordés… )

@Sp3r4z faites tourner, parce que ça m'intéresse aussi (une conférence à transcrire, j'en fais 8 minutes à l'heure et je veux me pendre, là)

@Smeablog Merci, je vais regarder cela de plus près :)

@Sp3r4z spoiler les résultats sont pas top mais tu peux essayer

@AmarOk Je regarderais cela. C'est peut-être pas si développé que ça, et/ou les brevets sont brevetés justement :/

@Sp3r4z Faut aussi beaucoup plus d'entrainement que des synthèses vocales (et déjà les synthèses vocales libres sont assez merdique (mimic rend pas trop mal... mais on est encore loin))

Sign in to participate in the conversation
Mastodon

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!