Bueno, al parecer el sonido tiene que ser captado por el micrófono, es decir, el sonido reproducido por los altavoces tiene que ser recibido por el micrófono. Por lo que para "explotar" esto tendrías que tener micrófono, tener los altavoces conectados y cerca uno del otro.
En principio cualquier sistema de comandos de voz estaría sujeto a este tipo de bromas. Siempre puede pasar un bromista andando cerca de tu ordenador y gritar "apagate", pero no pasa de eso ser una broma, no creo que exista el comando "formateate". De todas formas estos sistemas están pensados para gente con discapacidades y me parece muy triste que alguien se aproveche para hacerles putadas.
Lo que si se podría implementar es un filtro que eliminara de la entrada del micrófono los sonidos que se acaban de reproducir por los altavoces, creo que es algo básico, aunque sea para eliminar el feedback. Ahí les dejo la idea a los de microsoft