DataDrift.init¶

DataDrift.__init__(data_stor, data_curr, type_data='auto', feat_to_check=None, config_threshold=None)¶

Inizializza la classe DataDrift, configurando i dati di riferimento e i dati correnti, il tipo di dati, e le feature da monitorare.

A seconda del tipo di dati forniti, la classe prepara i dati per il calcolo del data drift, infatti possono essere inseriti come input sia i dati in formato DataFrame che in formato dict nel caso fossero metadati.

Inoltre, la classe verifica se esistono feature in comune tra i due dataset e, se necessario, configura le soglie per il monitoraggio del data drift. Se non vengono fornite soglie specifiche, vengono usate quelle predefinite.

Parameters:

data_stor (pd.DataFrame/dict) – Il dataset storico (di riferimento) con cui confrontare il dataset corrente. Questo dataset contiene le informazioni da utilizzare per il confronto delle feature con i dati correnti.
data_curr (pd.DataFrame/dict) – Il dataset corrente che rappresenta i nuovi dati da analizzare. Questo dataset contiene i dati attuali da confrontare con quelli storici per il rilevamento del data drift.
type_data (str, opzionale) –
Indica il tipo di dati forniti:
- ”auto”: La classe determina automaticamente se i dati sono DataFrame o metadati.
- ”data”: I dati vengono forniti come DataFrame Pandas.
- ”metadata”: I dati vengono forniti come metadati (dizionari).
Default: “auto”.
feat_to_check (list, opzionale) – Una lista delle feature da verificare. Se non specificato, verranno analizzate tutte le feature comuni tra i due dataset. Default: None
config_threshold (dict, opzionale) –
Dizionario contenente le soglie PSI e p-value, che definiscono i limiti per il rilevamento del data drift. Se non fornito, vengono usate le soglie predefinite. Valori di default:
- Max PSI: 0.2
- Mid PSI: 0.1
- p-value: 0.05
Default: None

DataDrift.init¶

Table of Contents

Previous topic

Next topic

This Page

DataDrift.__init__¶

DataDrift.init¶