GitHub - neuezeldaa/mws_model_ML

DevSecOps Pipeline for Secret Detection

1. Описание

Проект представляет собой многоэтапную DevSecOps-систему для анализа утечек секретов в коде. Основная цель — снижение количества false-positive при работе со статическими анализаторами (например, gitleaks) за счёт комбинации:

контекстных эвристик
статистического анализа
ML-модели
LLM как финального арбитра

Система принимает SARIF-отчёты, анализирует найденные значения и формирует финальный вердикт для каждого finding.

2. Архитектура решения

Пайплайн построен по принципу поэтапной фильтрации:

SARIF → Heuristic → ML → LLM → Final Verdict

Этапы:

Heuristic (Python, FastAPI)
Контекстные правила (test / mock / example и т.д.)
Анализ длины и энтропии значения
Ранний отсев очевидных false-positive
ML (Go client)
Классификация секретов
Применение confidence threshold
Возможность раннего принятия решения
LLM (Go client)
Анализ пограничных и неоднозначных кейсов
Финальный источник истины для сложных ситуаций

Каждый этап может остановить дальнейшую обработку, если решение принято однозначно.

3. Основные принципы

Fail-fast для очевидных случаев

Risk-based routing — LLM используется только там, где это действительно необходимо
Прозрачность решений — фиксируется источник финального вердикта
Детерминированность — одинаковые входные данные дают одинаковый результат

4. Компоненты проекта

server/ — основной backend-сервис (Go)
оркестрация пайплайна
работа с SARIF
интеграция с ML и LLM
heuristic/ — сервис эвристик (Python, FastAPI)
контекстный анализ
энтропийный анализ
ml_client — клиент ML-модели
llm_client — клиент LLM-сервиса

5. Входные данные

Система принимает SARIF-отчёты от статических анализаторов. Для каждого finding используется:

путь к файлу
найденное значение
тип правила (ruleId)
дополнительная мета-информация

6. Выходные данные

Для каждого finding формируется:

финальный вердикт (TP / FP)
источник решения (heuristic / entropy / ml / llm)
сохранённые метрики (энтропия, длина, confidence)
статус обработки

Результаты сохраняются в базе данных для дальнейшего анализа.

7. Тестирование

Проект тестировался на SARIF-наборах с различными сценариями:

production-секреты
тестовые и mock-файлы
низкоэнтропийные значения
пограничные кейсы

Тестовые отчёты демонстрируют распределение нагрузки между эвристикой, ML и LLM.

8. Цели проекта

Снижение количества false-positive
Оптимизация использования ML и LLM
Повышение объяснимости решений
Демонстрация архитектурного подхода к DevSecOps

9. Технологии

Go (FIBER)
Python (FastAPI)
SARIF
ML / LLM
Docker
PostgreSQL

10. Статус

Проект реализован как прототип и предназначен для демонстрации архитектуры и подходов к интеллектуальной обработке результатов security-сканирования.

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
data		data
models		models
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
data_prepare.py		data_prepare.py
docker-compose.yml		docker-compose.yml
requirements.txt		requirements.txt
service.py		service.py
test.py		test.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DevSecOps Pipeline for Secret Detection

1. Описание

2. Архитектура решения

3. Основные принципы

4. Компоненты проекта

5. Входные данные

6. Выходные данные

7. Тестирование

8. Цели проекта

9. Технологии

10. Статус

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

DevSecOps Pipeline for Secret Detection

1. Описание

2. Архитектура решения

3. Основные принципы

4. Компоненты проекта

5. Входные данные

6. Выходные данные

7. Тестирование

8. Цели проекта

9. Технологии

10. Статус

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages