diff --git a/node/Utils.hpp b/node/Utils.hpp index 20108e271..54af3aecc 100644 --- a/node/Utils.hpp +++ b/node/Utils.hpp @@ -48,27 +48,31 @@ static inline void ZT_FAST_MEMCPY(void *a,const void *b,unsigned long k) char *aa = reinterpret_cast(a); const char *bb = reinterpret_cast(b); while (likely(k >= 128)) { - __m128i t1 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t2 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t3 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t4 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t1); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t2); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t3); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t4); aa += 16; - __m128i t5 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t6 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t7 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - __m128i t8 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t5); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t6); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t7); aa += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t8); aa += 16; + __m128 t1 = _mm_loadu_ps(reinterpret_cast(bb)); + __m128 t2 = _mm_loadu_ps(reinterpret_cast(bb + 16)); + __m128 t3 = _mm_loadu_ps(reinterpret_cast(bb + 32)); + __m128 t4 = _mm_loadu_ps(reinterpret_cast(bb + 48)); + _mm_storeu_ps(reinterpret_cast(aa),t1); + _mm_storeu_ps(reinterpret_cast(aa + 16),t2); + _mm_storeu_ps(reinterpret_cast(aa + 32),t3); + _mm_storeu_ps(reinterpret_cast(aa + 48),t4); + t1 = _mm_loadu_ps(reinterpret_cast(bb + 64)); + t2 = _mm_loadu_ps(reinterpret_cast(bb + 80)); + t3 = _mm_loadu_ps(reinterpret_cast(bb + 96)); + t4 = _mm_loadu_ps(reinterpret_cast(bb + 112)); + _mm_storeu_ps(reinterpret_cast(aa + 64),t1); + _mm_storeu_ps(reinterpret_cast(aa + 80),t2); + _mm_storeu_ps(reinterpret_cast(aa + 96),t3); + _mm_storeu_ps(reinterpret_cast(aa + 112),t4); + bb += 128; + aa += 128; k -= 128; } while (likely(k >= 16)) { - __m128i t1 = _mm_loadu_si128(reinterpret_cast(bb)); bb += 16; - _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t1); aa += 16; + __m128 t1 = _mm_loadu_si128(reinterpret_cast(bb)); + _mm_storeu_si128(reinterpret_cast<__m128i *>(aa),t1); + bb += 16; + aa += 16; k -= 16; } for(unsigned long i=0;i