You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
почему тут error? я понимаю, что сначала идет label encoder, но он может создавать доп колонку для новых labels в случае применения transform к другому датасету
может быть, стоит добавить тесты transfomer-ов с fit на отдельном куске датасета и transform на другой, чтобы убедиться, что кейсы появления новых значений кат.фичей обрабатываются корректно?
Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?
В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.
В _transform SparkOrdinalEncoderTransformer выполняется
indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)
Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?
Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.
The text was updated successfully, but these errors were encountered: