minor corrections

JishinMaster · JishinMaster · commit 9f8bc0f1749b · 2023-05-14T08:13:40.000+02:00
diff --git a/simd_test.c b/simd_test.c
@@ -7411,7 +7411,7 @@ int main(int argc, char **argv)
 
     l2_errd(inoutd_ref, inoutd2, len);
     /*for(int i = 0; i < len; i++)
-    	printf("%f %f %f\n",inoutd[i], inoutd_ref[i], inoutd2[i]);*/
+        printf("%f %f %f\n",inoutd[i], inoutd_ref[i], inoutd2[i]);*/
 #endif
 
 #ifdef AVX
diff --git a/simd_utils.h b/simd_utils.h
@@ -408,12 +408,11 @@ static inline v2sd _mm_cvtepi64_pd_signed_custom(v2sid x)
 static inline v2sid _mm_cvtpd_epi64_custom(v2sd x)
 {
     // Signed
-#if 0
-   x = _mm_add_pd(x, _mm_set1_pd(0x0018000000000000));
+#if 1
+    x = _mm_add_pd(x, *(v2sd *) _pd_epi64_mask);
     return _mm_sub_epi64(
         _mm_castpd_si128(x),
-        _mm_castpd_si128(_mm_set1_pd(0x0018000000000000))
-    );
+        _mm_castpd_si128(*(v2sd *) _pd_epi64_mask));
 #else
     // Unsigned
     x = _mm_add_pd(x, *(v2sd *) _pd_PDEPI64U);  //_mm_set1_pd(0x0010000000000000));
@@ -490,22 +489,22 @@ static inline __m256d _mm256_fnmadd_pd_custom(__m256d a, __m256d b, __m256d c)
 
 // https://stackoverflow.com/questions/41144668/how-to-efficiently-perform-double-int64-conversions-with-sse-avx
 //  Only works for inputs in the range: [-2^51, 2^51]
-/*static inline __m256i _mm256_cvtpd_epi64_custom(__m256d x)
+static inline __m256i _mm256_cvtpd_epi64_custom(__m256d x)
 {
     x = _mm256_add_pd(x, *(v4sd *) _pd256_epi64_mask);
     return _mm256_sub_epi64(
         _mm256_castpd_si256(x),
         _mm256_castpd_si256(*(v4sd *) _pd256_epi64_mask));
-}*/
-
+}
+/*
 static inline v4sid _mm256_cvtpd_epi64_custom(v4sd x)
 {
     x = _mm256_add_pd(x, *(v4sd *) _pd256_PDEPI64U);
     return _mm256_xor_si256(
         _mm256_castpd_si256(x),
         _mm256_castpd_si256(*(v4sd *) _pd256_PDEPI64U));
 }
-
+*/
 static inline v4sd _mm256_cvtepi64_pd_custom(v4sid x)
 {
     x = _mm256_or_si256(x, _mm256_castpd_si256(*(v4sd *) _pd256_PDEPI64U));
diff --git a/simd_utils_avx512_double.h b/simd_utils_avx512_double.h
@@ -1211,7 +1211,7 @@ v8sd log512_pd(v8sd x)
      * where z = 2(x-1)/x+1)
      */
     v8sd abse = _mm512_and_pd(e, *(v8sd *) _pd512_pos_sign_mask);
-    __mmask8 abseinf2 = _mm512_cmp_pd_mask(abse, *(v8sd *) _pd512_2, _CMP_LT_OS);// FF if < 2
+    __mmask8 abseinf2 = _mm512_cmp_pd_mask(abse, *(v8sd *) _pd512_2, _CMP_LT_OS);  // FF if < 2
     __mmask8 xinfsqrth = _mm512_cmp_pd_mask(x, *(v8sd *) _pd512_cephes_SQRTHF, _CMP_LT_OS);
 
     e = _mm512_mask_blend_pd(xinfsqrth, e, _mm512_sub_pd(e, *(v8sd *) _pd512_1));  // if( x < SQRTH ) e-=1
@@ -1220,15 +1220,15 @@ v8sd log512_pd(v8sd x)
 
     // if(x < SQRTH) z_abseinf2 = (x-0.5), else x-1
     tmp_abseinf2 = _mm512_sub_pd(x, *(v8sd *) _pd512_1);
-    tmp2_abseinf2 =  _mm512_sub_pd(x, *(v8sd *) _pd512_0p5);
+    tmp2_abseinf2 = _mm512_sub_pd(x, *(v8sd *) _pd512_0p5);
     z_abseinf2 = _mm512_mask_blend_pd(xinfsqrth, tmp_abseinf2, tmp2_abseinf2);
 
     tmp_abseinf2 = _mm512_fmadd_pd(z_abseinf2, *(v8sd *) _pd512_0p5, *(v8sd *) _pd512_0p5);
     tmp2_abseinf2 = _mm512_fmadd_pd(x, *(v8sd *) _pd512_0p5, *(v8sd *) _pd512_0p5);
 
     // if(x < SQRTH) y_abseinf2 = z*0.5 + 0.5, else = x*0.5 + 0.5
     y_abseinf2 = _mm512_mask_blend_pd(xinfsqrth, tmp2_abseinf2, tmp_abseinf2);
-    
+
     x_abseinf2 = _mm512_div_pd(z_abseinf2, y_abseinf2);  // x = z / y;
     z_abseinf2 = _mm512_mul_pd(x_abseinf2, x_abseinf2);  // z = x*x;
 
@@ -1245,12 +1245,12 @@ v8sd log512_pd(v8sd x)
     // convert e to double
     // y = e
     z_abseinf2 = _mm512_fmadd_pd(e, *(v8sd *) _pd512_min_212emin4, z_abseinf2);  // z = z - y * 2.121944400546905827679e-4;
-    z_abseinf2 = _mm512_add_pd(z_abseinf2, x_abseinf2);                              // z = z + x;
+    z_abseinf2 = _mm512_add_pd(z_abseinf2, x_abseinf2);                          // z = z + x;
 
     /* logarithm using log(1+x) = x - .5x**2 + x**3 P(x)/Q(x) */
     v8sd tmp3, tmp4;
     tmp3 = _mm512_fmadd_pd(x, *(v8sd *) _pd512_2, *(v8sd *) _pd512_min1);  //	  x = 2.0*x - 1.0; /*  2x - 1  */
-    tmp4 = _mm512_sub_pd(x, *(v8sd *) _pd512_1);                               // x = x - 1.0;
+    tmp4 = _mm512_sub_pd(x, *(v8sd *) _pd512_1);                           // x = x - 1.0;
     x = _mm512_mask_blend_pd(xinfsqrth, tmp4, tmp3);
 
     /* rational form */
@@ -1274,11 +1274,11 @@ v8sd log512_pd(v8sd x)
     // if( e) => no need, if e==0 it still works
     z = _mm512_fmadd_pd(e, *(v8sd *) _pd512_min_212emin4, z);  // z = z - e * 2.121944400546905827679e-4;
     y = _mm512_fmadd_pd(z, *(v8sd *) _pd512_min0p5, y);        // y = y - 0.5*z;
-    z = _mm512_add_pd(x, y);                                       // z = x + y;
+    z = _mm512_add_pd(x, y);                                   // z = x + y;
     // if( e) => no need, if e==0 it still works
 
-    z = _mm512_mask_blend_pd(abseinf2, z, z_abseinf2);         // if fabs(e) < 2 z = z_abseinf2
-    z = _mm512_fmadd_pd(e, *(v8sd *) _pd512_0p69, z);  // z + e * 0.693359375;
+    z = _mm512_mask_blend_pd(abseinf2, z, z_abseinf2);  // if fabs(e) < 2 z = z_abseinf2
+    z = _mm512_fmadd_pd(e, *(v8sd *) _pd512_0p69, z);   // z + e * 0.693359375;
 
     return (z);
 }
diff --git a/simd_utils_avx_double.h b/simd_utils_avx_double.h
@@ -1119,7 +1119,7 @@ v4sd log256_pd(v4sd x)
      * where z = 2(x-1)/x+1)
      */
     v4sd abse = _mm256_and_pd(e, *(v4sd *) _pd256_pos_sign_mask);
-    v4sd abseinf2 = _mm256_cmp_pd(abse, *(v4sd *) _pd256_2, _CMP_LT_OS);// FF if < 2
+    v4sd abseinf2 = _mm256_cmp_pd(abse, *(v4sd *) _pd256_2, _CMP_LT_OS);  // FF if < 2
     v4sd xinfsqrth = _mm256_cmp_pd(x, *(v4sd *) _pd256_cephes_SQRTHF, _CMP_LT_OS);
 
     e = _mm256_blendv_pd(e, _mm256_sub_pd(e, *(v4sd *) _pd256_1), xinfsqrth);  // if( x < SQRTH ) e-=1
@@ -1128,15 +1128,15 @@ v4sd log256_pd(v4sd x)
 
     // if(x < SQRTH) z_abseinf2 = (x-0.5), else x-1
     tmp_abseinf2 = _mm256_sub_pd(x, *(v4sd *) _pd256_1);
-    tmp2_abseinf2 =  _mm256_sub_pd(x, *(v4sd *) _pd256_0p5);
+    tmp2_abseinf2 = _mm256_sub_pd(x, *(v4sd *) _pd256_0p5);
     z_abseinf2 = _mm256_blendv_pd(tmp_abseinf2, tmp2_abseinf2, xinfsqrth);
 
     tmp_abseinf2 = _mm256_fmadd_pd_custom(z_abseinf2, *(v4sd *) _pd256_0p5, *(v4sd *) _pd256_0p5);
     tmp2_abseinf2 = _mm256_fmadd_pd_custom(x, *(v4sd *) _pd256_0p5, *(v4sd *) _pd256_0p5);
 
     // if(x < SQRTH) y_abseinf2 = z*0.5 + 0.5, else = x*0.5 + 0.5
     y_abseinf2 = _mm256_blendv_pd(tmp2_abseinf2, tmp_abseinf2, xinfsqrth);
-    
+
     x_abseinf2 = _mm256_div_pd(z_abseinf2, y_abseinf2);  // x = z / y;
     z_abseinf2 = _mm256_mul_pd(x_abseinf2, x_abseinf2);  // z = x*x;
 
@@ -1153,12 +1153,12 @@ v4sd log256_pd(v4sd x)
     // convert e to double
     // y = e
     z_abseinf2 = _mm256_fmadd_pd_custom(e, *(v4sd *) _pd256_min_212emin4, z_abseinf2);  // z = z - y * 2.121944400546905827679e-4;
-    z_abseinf2 = _mm256_add_pd(z_abseinf2, x_abseinf2);                              // z = z + x;
+    z_abseinf2 = _mm256_add_pd(z_abseinf2, x_abseinf2);                                 // z = z + x;
 
     /* logarithm using log(1+x) = x - .5x**2 + x**3 P(x)/Q(x) */
     v4sd tmp3, tmp4;
     tmp3 = _mm256_fmadd_pd_custom(x, *(v4sd *) _pd256_2, *(v4sd *) _pd256_min1);  //	  x = 2.0*x - 1.0; /*  2x - 1  */
-    tmp4 = _mm256_sub_pd(x, *(v4sd *) _pd256_1);                               // x = x - 1.0;
+    tmp4 = _mm256_sub_pd(x, *(v4sd *) _pd256_1);                                  // x = x - 1.0;
     x = _mm256_blendv_pd(tmp4, tmp3, xinfsqrth);
 
     /* rational form */
@@ -1182,10 +1182,10 @@ v4sd log256_pd(v4sd x)
     // if( e) => no need, if e==0 it still works
     z = _mm256_fmadd_pd_custom(e, *(v4sd *) _pd256_min_212emin4, z);  // z = z - e * 2.121944400546905827679e-4;
     y = _mm256_fmadd_pd_custom(z, *(v4sd *) _pd256_min0p5, y);        // y = y - 0.5*z;
-    z = _mm256_add_pd(x, y);                                       // z = x + y;
+    z = _mm256_add_pd(x, y);                                          // z = x + y;
     // if( e) => no need, if e==0 it still works
 
-    z = _mm256_blendv_pd(z, z_abseinf2, abseinf2);         // if fabs(e) < 2 z = z_abseinf2
+    z = _mm256_blendv_pd(z, z_abseinf2, abseinf2);            // if fabs(e) < 2 z = z_abseinf2
     z = _mm256_fmadd_pd_custom(e, *(v4sd *) _pd256_0p69, z);  // z + e * 0.693359375;
 
     return (z);
diff --git a/simd_utils_constants.h b/simd_utils_constants.h
@@ -2115,6 +2115,15 @@ static inline void print2i(__m128i v)
     printf("[%ld, %ld]", p[0], p[1]);
 }
 
+static inline void print2xi(__m128i v)
+{
+    int64_t *p = (int64_t *) &v;
+#ifndef USE_SSE2
+    _mm_empty();
+#endif
+    printf("[%16x, %16x]", p[0], p[1]);
+}
+
 #endif
 
 #ifdef AVX
diff --git a/simd_utils_sse_double.h b/simd_utils_sse_double.h
@@ -1172,14 +1172,16 @@ static inline v2sd exp_pd(v2sd x)
     tmp2 = _mm_sub_pd(tmp2, px);
     x = _mm_div_pd(px, tmp2);
     x = _mm_fmadd_pd_custom(x, *(v2sd *) _pd_2, *(v2sd *) _pd_1);
-
+    // print2(x);
+    // print2xi(n);
     /* build 2^n */
     n = _mm_add_epi64(n, *(v2sid *) _pi64_1023);
     n = _mm_slli_epi64(n, 52);
     v2sd pow2n = _mm_castsi128_pd(n);
 
     /* multiply by power of 2 */
     x = _mm_mul_pd(x, pow2n);
+    // print2(x);printf("\n");
     return (x);
 }
 
@@ -1201,7 +1203,7 @@ static inline void exp128d(double *src, double *dst, int len)
     }
 
     for (int i = stop_len; i < len; i++) {
-        dst[i] = log(src[i]);
+        dst[i] = exp(src[i]);
     }
 }
 

Original file line number	Diff line number	Diff line change
`@@ -1172,14 +1172,16 @@ static inline v2sd exp_pd(v2sd x)`
`1172`	`1172`	`tmp2 = _mm_sub_pd(tmp2, px);`
`1173`	`1173`	`x = _mm_div_pd(px, tmp2);`
`1174`	`1174`	`x = _mm_fmadd_pd_custom(x, (v2sd ) _pd_2, (v2sd ) _pd_1);`
`1175`		`-`
	`1175`	`+ // print2(x);`
	`1176`	`+ // print2xi(n);`
`1176`	`1177`	`/* build 2^n */`
`1177`	`1178`	`n = _mm_add_epi64(n, (v2sid ) _pi64_1023);`
`1178`	`1179`	`n = _mm_slli_epi64(n, 52);`
`1179`	`1180`	`v2sd pow2n = _mm_castsi128_pd(n);`
`1180`	`1181`
`1181`	`1182`	`/* multiply by power of 2 */`
`1182`	`1183`	`x = _mm_mul_pd(x, pow2n);`
	`1184`	`+ // print2(x);printf("\n");`
`1183`	`1185`	`return (x);`
`1184`	`1186`	`}`
`1185`	`1187`
`@@ -1201,7 +1203,7 @@ static inline void exp128d(double src, double dst, int len)`
`1201`	`1203`	`}`
`1202`	`1204`
`1203`	`1205`	`for (int i = stop_len; i < len; i++) {`
`1204`		`- dst[i] = log(src[i]);`
	`1206`	`+ dst[i] = exp(src[i]);`
`1205`	`1207`	`}`
`1206`	`1208`	`}`
`1207`	`1209`