DataDrift.__init__

DataDrift.__init__(data_stor, data_curr, type_data='auto', feat_to_check=None, config_threshold=None)

Inizializza la classe DataDrift, configurando i dati di riferimento e i dati correnti, il tipo di dati, e le feature da monitorare.

A seconda del tipo di dati forniti, la classe prepara i dati per il calcolo del data drift, infatti possono essere inseriti come input sia i dati in formato DataFrame che in formato dict nel caso fossero metadati.

Inoltre, la classe verifica se esistono feature in comune tra i due dataset e, se necessario, configura le soglie per il monitoraggio del data drift. Se non vengono fornite soglie specifiche, vengono usate quelle predefinite.

Parameters:
  • data_stor (pd.DataFrame/dict) – Il dataset storico (di riferimento) con cui confrontare il dataset corrente. Questo dataset contiene le informazioni da utilizzare per il confronto delle feature con i dati correnti.

  • data_curr (pd.DataFrame/dict) – Il dataset corrente che rappresenta i nuovi dati da analizzare. Questo dataset contiene i dati attuali da confrontare con quelli storici per il rilevamento del data drift.

  • type_data (str, opzionale) –

    Indica il tipo di dati forniti:

    • ”auto”: La classe determina automaticamente se i dati sono DataFrame o metadati.

    • ”data”: I dati vengono forniti come DataFrame Pandas.

    • ”metadata”: I dati vengono forniti come metadati (dizionari).

    Default: “auto”.

  • feat_to_check (list, opzionale) – Una lista delle feature da verificare. Se non specificato, verranno analizzate tutte le feature comuni tra i due dataset. Default: None

  • config_threshold (dict, opzionale) –

    Dizionario contenente le soglie PSI e p-value, che definiscono i limiti per il rilevamento del data drift. Se non fornito, vengono usate le soglie predefinite. Valori di default:

    • Max PSI: 0.2

    • Mid PSI: 0.1

    • p-value: 0.05

    Default: None