Да дурь это всё. Либо векторизацией должен заниматься компилятор, либо архитектура должна быть изначально продумана из расчёта на SSE2.
Я же рассказывал вроде, что тестировал эту сорсовскую трассу у себя в p2 и она там выдавала результат, сравнимый по скорости с кушным bsp-деревом или даже вдвое ниже. А как только я переписал код обратно на FFP производительность улетела в небо.