OrdinalEncoder #132

monkey0head · 2022-03-17T14:49:29Z

Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?

В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.

В _transform SparkOrdinalEncoderTransformer выполняется indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)

Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?

Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.

The text was updated successfully, but these errors were encountered:

monkey0head · 2022-03-17T16:53:10Z

почему тут error? я понимаю, что сначала идет label encoder, но он может создавать доп колонку для новых labels в случае применения transform к другому датасету

monkey0head · 2022-03-17T19:37:34Z

может быть, стоит добавить тесты transfomer-ов с fit на отдельном куске датасета и transform на другой, чтобы убедиться, что кейсы появления новых значений кат.фичей обрабатываются корректно?

Provide feedback