También he probado este tipo de sistemas de reconocimiento de voz.
En mi experiencia respondían bien a los comandos simples como "Inicio","Programas", "Abrir", "Guadar", etc. En este caso el sistema está a la espera de lo que el usuario ordena y como el conjunto de posibles comandos es pequeño es más fácil encontrar coincidencias.
El asunto se complica y bastante como bien lo han dicho cuando se intenta dictar un documento sencillamente por la cantidad de palabras que existen en un idioma y algunas muy similares fonéticamente.
Esto quedó evidenciado en una demostración que hicieron en Microsoft para el reconocimiento de voz de Windows Vista.
Versión Corta
Versión completa
Saludos