Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

OrdinalEncoder #132

Open
monkey0head opened this issue Mar 17, 2022 · 2 comments
Open

OrdinalEncoder #132

monkey0head opened this issue Mar 17, 2022 · 2 comments

Comments

@monkey0head
Copy link
Collaborator

Коллеги, можете, пожалуйста, уточнить, что происходит в SparkOrdinalEncoderEstimator и SparkOrdinalEncoderTransformer с nan-ами и новыми label-ами?

В SparkOrdinalEncoderEstimator создается LAMLStringIndexer с параметрами handleInvalid="keep", defaultValue=self._fillna_val, nanLast=True.

В _transform SparkOrdinalEncoderTransformer выполняется indexed_dataset = indexed_dataset.replace(float('nan'), 0.0, subset=output_columns)

Часть этих параметров в моем понимании пересекаются. Можете, пожалуйста, уточнить логику?

Не получилось создать дискуссию, если лучше вопросы писать в другое место - напишите, куда.

@monkey0head
Copy link
Collaborator Author

  • почему тут error? я понимаю, что сначала идет label encoder, но он может создавать доп колонку для новых labels в случае применения transform к другому датасету

@monkey0head
Copy link
Collaborator Author

  • может быть, стоит добавить тесты transfomer-ов с fit на отдельном куске датасета и transform на другой, чтобы убедиться, что кейсы появления новых значений кат.фичей обрабатываются корректно?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant