automl
diff --git a/‎autoPyTorch/configs/greedy_portfolio.json
Lines changed: 16 additions & 16 deletions b/‎autoPyTorch/configs/greedy_portfolio.json
Lines changed: 16 additions & 16 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/TabularColumnTransformer.py
Lines changed: 17 additions & 9 deletions b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/TabularColumnTransformer.py
Lines changed: 17 additions & 9 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/coalescer/MinorityCoalescer.py
Lines changed: 44 additions & 0 deletions b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/coalescer/MinorityCoalescer.py
Lines changed: 44 additions & 0 deletions
diff --git a/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/coalescer/NoCoalescer.py
Lines changed: 37 additions & 0 deletions b/‎autoPyTorch/pipeline/components/preprocessing/tabular_preprocessing/coalescer/NoCoalescer.py
Lines changed: 37 additions & 0 deletions
@@ -1,7 +1,7 @@
 [{"data_loader:batch_size": 60,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -31,8 +31,8 @@
  "network_backbone:ShapedMLPBackbone:max_dropout": 0.023271935735825866},
  {"data_loader:batch_size": 255,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -65,8 +65,8 @@
  "network_backbone:ShapedResNetBackbone:max_dropout": 0.7662454727603789},
  {"data_loader:batch_size": 165,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -96,8 +96,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 299,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -128,8 +128,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 183,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -162,8 +162,8 @@
  "network_backbone:ShapedResNetBackbone:max_dropout": 0.27204101593048097},
  {"data_loader:batch_size": 21,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -191,8 +191,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 159,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "TruncatedSVD",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -221,8 +221,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 442,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "TruncatedSVD",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -254,8 +254,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 140,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "TruncatedSVD",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -287,8 +287,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 48,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -315,8 +315,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 168,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -348,8 +348,8 @@
  "network_backbone:ShapedResNetBackbone:max_dropout": 0.8992826006547855},
  {"data_loader:batch_size": 21,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -377,8 +377,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 163,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -410,8 +410,8 @@
  "network_backbone:ShapedResNetBackbone:max_dropout": 0.6341848343636569},
  {"data_loader:batch_size": 150,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "NoFeaturePreprocessor",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
@@ -444,8 +444,8 @@
  "network_backbone:ShapedResNetBackbone:max_dropout": 0.7133813761319248},
  {"data_loader:batch_size": 151,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "TruncatedSVD",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedMLPBackbone",
@@ -474,8 +474,8 @@
  "network_head:fully_connected:units_layer_1": 128},
  {"data_loader:batch_size": 42,
  "encoder:__choice__": "OneHotEncoder",
+ "coalescer:__choice__": "NoCoalescer",
  "feature_preprocessor:__choice__": "TruncatedSVD",
- "imputer:categorical_strategy": "most_frequent",
  "imputer:numerical_strategy": "mean",
  "lr_scheduler:__choice__": "CosineAnnealingLR",
  "network_backbone:__choice__": "ShapedResNetBackbone",
 
@@ -1,7 +1,8 @@
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Dict, List, Optional, Tuple, Union
 
 import numpy as np
 
+from sklearn.base import BaseEstimator
 from sklearn.compose import ColumnTransformer
 from sklearn.pipeline import make_pipeline
 
@@ -49,18 +50,25 @@ def fit(self, X: Dict[str, Any], y: Any = None) -> "TabularColumnTransformer":
         """
 
         self.check_requirements(X, y)
-        numerical_pipeline = 'passthrough'
-        categorical_pipeline = 'passthrough'
 
         preprocessors = get_tabular_preprocessers(X)
-        if len(X['dataset_properties']['numerical_columns']):
+        column_transformers: List[Tuple[str, BaseEstimator, List[int]]] = []
+        if len(preprocessors['numerical']) > 0:
             numerical_pipeline = make_pipeline(*preprocessors['numerical'])
-        if len(X['dataset_properties']['categorical_columns']):
+            column_transformers.append(
+                ('numerical_pipeline', numerical_pipeline, X['dataset_properties']['numerical_columns'])
+            )
+        if len(preprocessors['categorical']) > 0:
             categorical_pipeline = make_pipeline(*preprocessors['categorical'])
-
-        self.preprocessor = ColumnTransformer([
-            ('numerical_pipeline', numerical_pipeline, X['dataset_properties']['numerical_columns']),
-            ('categorical_pipeline', categorical_pipeline, X['dataset_properties']['categorical_columns'])],
+            column_transformers.append(
+                ('categorical_pipeline', categorical_pipeline, X['dataset_properties']['categorical_columns'])
+            )
+
+        # in case the preprocessing steps are disabled
+        # i.e, NoEncoder for categorical, we want to
+        # let the data in categorical columns pass through
+        self.preprocessor = ColumnTransformer(
+            column_transformers,
             remainder='passthrough'
         )
 
 
@@ -0,0 +1,44 @@
+from typing import Any, Dict, Optional, Union
+
+from ConfigSpace.configuration_space import ConfigurationSpace
+from ConfigSpace.hyperparameters import UniformFloatHyperparameter
+
+import numpy as np
+
+from autoPyTorch.pipeline.components.preprocessing.tabular_preprocessing.coalescer.base_coalescer import BaseCoalescer
+from autoPyTorch.utils.common import HyperparameterSearchSpace, add_hyperparameter
+from autoPyTorch.utils.implementations import MinorityCoalesceTransformer
+
+
+class MinorityCoalescer(BaseCoalescer):
+    """Group together categories whose occurence is less than a specified min_frac """
+    def __init__(self, min_frac: float, random_state: np.random.RandomState):
+        super().__init__()
+        self.min_frac = min_frac
+        self.random_state = random_state
+
+    def fit(self, X: Dict[str, Any], y: Any = None) -> BaseCoalescer:
+        self.check_requirements(X, y)
+        self.preprocessor['categorical'] = MinorityCoalesceTransformer(min_frac=self.min_frac)
+        return self
+
+    @staticmethod
+    def get_hyperparameter_search_space(
+        dataset_properties: Optional[Dict[str, Any]] = None,
+        min_frac: HyperparameterSearchSpace = HyperparameterSearchSpace(hyperparameter='min_frac',
+                                                                        value_range=(1e-4, 0.5),
+                                                                        default_value=1e-2,
+                                                                        ),
+    ) -> ConfigurationSpace:
+
+        cs = ConfigurationSpace()
+        add_hyperparameter(cs, min_frac, UniformFloatHyperparameter)
+        return cs
+
+    @staticmethod
+    def get_properties(dataset_properties: Optional[Dict[str, Any]] = None) -> Dict[str, Union[str, bool]]:
+        return {
+            'shortname': 'MinorityCoalescer',
+            'name': 'MinorityCoalescer',
+            'handles_sparse': False
+        }
@@ -0,0 +1,37 @@
+from typing import Any, Dict, Optional, Union
+
+import numpy as np
+
+from autoPyTorch.pipeline.components.preprocessing.tabular_preprocessing.coalescer.base_coalescer import BaseCoalescer
+
+
+class NoCoalescer(BaseCoalescer):
+    def __init__(self, random_state: np.random.RandomState):
+        super().__init__()
+        self.random_state = random_state
+        self._processing = False
+
+    def fit(self, X: Dict[str, Any], y: Optional[Any] = None) -> BaseCoalescer:
+        """
+        As no coalescing happens, only check the requirements.
+
+        Args:
+            X (Dict[str, Any]):
+                fit dictionary
+            y (Optional[Any]):
+                Parameter to comply with scikit-learn API. Not used.
+
+        Returns:
+            instance of self
+        """
+        self.check_requirements(X, y)
+
+        return self
+
+    @staticmethod
+    def get_properties(dataset_properties: Optional[Dict[str, Any]] = None) -> Dict[str, Union[str, bool]]:
+        return {
+            'shortname': 'NoCoalescer',
+            'name': 'NoCoalescer',
+            'handles_sparse': True
+        }