Hola,
Primero que todo deberias tener en cuenta, que aunque lo logres el resultado no sera perfecto... ten en cuenta de que no es tan fácil que un computador distinga los sonidos e identifique su valor en texto, cuestiones como la pronunciacion y el tono de voz lo afectan; en programas como Dragon Naturally Speaking sucede... para que decirte mas... lo que necesitas en una buena busqueda en la web, la respuesta no te va a caer del cielo.
Buscando halle
esto, quiza tu tengas mas suerte y claro... tiempo