Модульный ETL-пайплайн на Python для автоматизации извлечения, нормализации и дедупликации данных из разнородных источников.
Извлечение сырых данных из разнородных Excel (xls/xlsx) через кастомные модули.
Маппинг категорий через JSON-конфиги. Приведение данных к единому Master-каталогу.
Fuzzy-логика сравнения строк для удаления дубликатов с сохранением лучшей цены.
Создание финального визуального прайса с группировкой и стилизацией через XlsxWriter.
Для поиска похожих товаров используется библиотека thefuzz и ускорение Levenshtein.
| Группировка | По master_subcategory |
| Метрики | fuzz.ratio, partial_ratio, token_set_ratio |
| Порог (Threshold) | > 85% совпадения |
| Decision Logic | Оставляется min(price) |
Веб-интерфейс для управления пайплайном и скачивания готовых файлов.
Каждый этап (parsing, mapping, cleanup) изолирован и может масштабироваться отдельно.