Estoy cabreado... intel es como:
tenemos porciones de 16 y 8 bits de los registros de 32 y 64 bits, pero cuidao porque son para retrocompatibilidad, si los usas el cpu te penalizará...
tenemos máscaras de 7, 16, 32 y 64 bits, pero otra vez, solo usa las de 32 bits en 64 bits, porque las de 64 son muy costozas y las de 16y 8 tambien reciben penalización...
existe bswap para tratar el endianess, pero puta la wea, otra vez el cpu te va a penalizar en rendimiento, así que mejor invierte tu wea de algoritmo para leer little-endian y escupir big-endian, recuerda que en c escribes big-endian, pero intelsito usa little-endian porque cuando se dieron cuenta, ya lo habían implementado
tenemos avx2, pero no podra ir a top speed, porque como se genera mucho calor, la frecuencia del cpu baja
te gusta optimizar?, cagaste, OoO igual te va a paralelizar y si lo obstruyes te penalizará
quieres usar características especiales?, cagaste, igual tienes que crear versiones tradicionales porque no todos los cpus tienen el mismo set de características
Menos mal que estos culiaos se fueron del mercado de consumo a servidores, menos paja molida en backend, y amd podrá hacer y deshacer. Cuando retornen, si es que retornan, tendran que adaptarse, intentar abrir mercado o retirarse como lo hizo nvidia de android en su momento.