Skip to content

Latest commit

 

History

History
76 lines (69 loc) · 3.12 KB

DistinctCountFeaturesMatrix.md

File metadata and controls

76 lines (69 loc) · 3.12 KB
layout
doc_page

Features Matrix for Distinct Count Sketches

Category Sub-Category Theta Tuple HLL CPC
Space Accuracy Config Min Log Precision (Min LgK) 4 4 4 4
Max Log Precision (Max LgK) 26 26 21 26
Min Log Sparse Precision 64 64 26 26
Max Log Sparce Precision 64 64 26 26
Space Accuracy Factors Entropy bits / slot = b 64 64 4 4.8
Error Coefficient = C 1 1 1.04 0.69
HIP Error Coefficient = C 0.83 0.59
Space Accuracy Merit1 Merging 64 4.33 2.31
Not Merging (HIP) 2.78 1.66
Input Types int Y Y Y Y
long Y Y Y Y
double Y Y Y Y
String Y Y Y Y
byte[] Y Y Y Y
char[] Y Y Y
int[] Y Y Y Y
long[] Y Y Y Y
Sketch results Estimate () double double double double
Upper Bound ( Std Dev ) double double double double
Lower Bound ( Std Dev ) double double double double
Estimate (numSubSetRows) double
Upper Bound (Std Dev, numSubset Rows) double
Lower Bound (Std Dev, numSubset Rows) double
Iterator() Y Y Y Y
Set Operations Union Y Y Y Y
Intersection Y Y
Difference Y Y
Enables full set expressions Y Y
Set Op Result Type Sketch Sketch Sketch Sketch
Merge different LgK Y Y Y Y
Serialize Operations To Byte Array Y Y Y Y
Deserialize Operations Heapify() Y Y Y Y
Wrap() Y Y Y
WritableWrap Y Y Y
Languages Java Y Y Y Y
C++ Y Y Y
Python2 Y Y Y
Binary compatibility across Languages Y Y Y Y
Other Operations and Modes Jaccard Index Y
Off-Heap Operation Y Y Y Y
Associative Columns Y
Generic Extensions Y
User Specified Hash Seed Y Y
Pre Sampling Y Y

1 Space Accuracy Merit (Lower is better) = b * C^2 = b * K * RSE^2
2 See Python Install Instructions