Price-List ETL System | Terminal Access
System: Online | Protocol: ETL_V2

Processing
Price-Lists

Модульный ETL-пайплайн на Python для автоматизации извлечения, нормализации и дедупликации данных из разнородных источников.

[EXTRACT]

Парсинг данных

Извлечение сырых данных из разнородных Excel (xls/xlsx) через кастомные модули.

import pandas as pd
# parsers/run_all.py
[TRANSFORM]

Нормализация

Маппинг категорий через JSON-конфиги. Приведение данных к единому Master-каталогу.

mapping.json -> category_key
[CLEAN]

Дедупликация

Fuzzy-логика сравнения строк для удаления дубликатов с сохранением лучшей цены.

fuzz.token_set_ratio > 85%
[LOAD]

Генерация

Создание финального визуального прайса с группировкой и стилизацией через XlsxWriter.

wb.add_format({'bold': True})

Для поиска похожих товаров используется библиотека thefuzz и ускорение Levenshtein.

Группировка По master_subcategory
Метрики fuzz.ratio, partial_ratio, token_set_ratio
Порог (Threshold) > 85% совпадения
Decision Logic Оставляется min(price)
Excel Sources (7)
>>>
Python Parsers
CSV Unified
>>>
Fuzzy Matching
Clean Data
>>>
Final Visual Excel

FastAPI

Веб-интерфейс для управления пайплайном и скачивания готовых файлов.

Modular

Каждый этап (parsing, mapping, cleanup) изолирован и может масштабироваться отдельно.

TERMINAL_ACCESS_GRANTED // 2024 // SYSTEM_ROOT