| Название |
Описание |
Инструменты |
| Кейс-чемпионаты |
|
Streamlit-приложение для анализа резюме по матрице Альянса ИИ
|
- Обработано более 700 резюме с разметкой, извлечением текста и созданием словаря компетенций;
- Дообучена модель RoBERTa от Facebook для генерации векторов компетенций;
- Разработано Streamlit-приложение для анализа компетенций по матрице Альянса ИИ;
- Приложение развернуто на арендованном сервере с HTTPS и докеризацией.
- 1 место в кейс-чемпионате "ProЦифру" в секции "Создание системы автоматизированного анализа соответствия компетенций IT-специалистов требованиям рынка"
|
См. репозиторий проекта
|
| Pet-проекты |
|
Регрессия стоимости аренды жилья (вероятно, данные с Airbnb)
|
- Логарифмирование целевой переменной, работа с пропусками, извлечение признаков из дат, кодирование категорий;
- Обучение CatBoostRegressor с подбором гиперпараметров через Optuna;
- Оценка моделей по RMSE, MSE, R²; визуализация остатков, анализ важности через SHAP;
- 1-е место в конкурсе на Kaggle.
|
Python, Jupyter Notebook, Pandas, CatBoost, Scikit-learn, SHAP, Optuna, Statsmodels
|
|
Классификация мошеннических транзакций
|
- Извлечение временных признаков, логарифмирование суммы, кодирование категорий;
- CatBoostClassifier с подбором через Optuna, сравнение моделей;
- Оценка по F1-score и logloss; финальная проверка на тесте через сабмит на Kaggle;
- 18-е место в соревновании.
|
Python, Pandas, CatBoost, Scikit-learn, SHAP, Optuna
|
|
Стекинг регрессионных моделей с оценкой неопределённости
|
- EDA: распределения, выбросы, корреляции, дубли;
- Preprocessing pipeline с ColumnTransformer: извлечение дат, логарифмирование, кодирование, масштабирование;
- Базовые модели (CatBoost, LightGBM, XGBoost, RandomForest, Ridge) + стекинг через мета-модель;
- Расчёт алеаторной, эпистемической и total-неопределённостей; графики ошибки vs доверие;
- Сравнение с одиночной CatBoost-моделью, финальный анализ ошибок и устойчивости.
|
Python, Scikit-learn, CatBoost, LightGBM, XGBoost, Optuna, SHAP
|
|
Стекинг регрессионных моделей с оценкой неопределённости
|
- EDA: распределения, выбросы, корреляции, дубли;
- Preprocessing pipeline с ColumnTransformer: извлечение дат, логарифмирование, кодирование, масштабирование;
- Базовые модели (CatBoost, LightGBM, XGBoost, RandomForest, Ridge) + стекинг через мета-модель;
- Расчёт алеаторной, эпистемической и total-неопределённостей; графики ошибки vs доверие;
- Сравнение с одиночной CatBoost-моделью, финальный анализ ошибок и устойчивости.
|
Python, Scikit-learn, CatBoost, LightGBM, XGBoost, Optuna, SHAP
|
|
Прогнозирования з/п в лог. шкале: дообучение NLP моделей + самописный вариант
|
|
....
|
|
CV классификация картинок: самописный вариант на PyTorch + дообучение готовых моделей
|
|
....
|
|
RAG-pipeline по книге "Преступление и наказание" Фёдора Достроевского в формате PDF
|
|
...
|