SIMD quiere decir Single Instruction Multiple Data y es un conjunto de instrucciones del Assembler del micro que estés usando. Creo que por hoy tanto los Intel como los AMD traen este conjunto de operaciones, sobre todo porque las operaciones como las que mencionas (multiplicar K por matriz) son muy comunes en transformaciones gráficas (léase muy utilizadas en multimedia y videojuegos).
Los C++ de Borland te dejan incluir assembler directamente en el codigo C++, con la sintaxis:
Pero de ahí en mas tendrías que estudiar un poco de assembler y más especificamente las instrucciones SIMD del micro que vayas a usar (no conozco si son compatibles entre ellas, pero asumo que en su mayoria si, sino no podriamos usar una sola version para Intel o AMD)
Espero que te sirva la respuesta.