DataDrift.get_meta_ref

DataDrift.get_meta_ref()

Restituisce il dizionario dei metadati di riferimento.

Questa funzione restituisce il dizionario che contiene i metadati relativi ai dataset storici (di riferimento) utilizzati per il monitoraggio del data drift. I metadati includono:

  • Il tipo di feature (categorica o numerica)

  • Informazioni sui bin, in particolare:

    • Feature numeriche: Si calcola la frequenza con cui ciascuna feature numerica compare all’interno di intervalli (bin) di valori continui, definiti automaticamente.

    • Feature categoriche: Si calcola la frequenza con cui ciascuna feature categorica compare all’interno di gruppi (bin) di categorie, creati automaticamente tramite accorpamento.

  • Informazioni sui missing values

  • Per le feature numeriche, informazioni aggiuntive sul dataset di riferimento:

    • Il valore minimo complessivo osservato.

    • Il valore massimo complessivo osservato.

    • Il numero totale di campioni del dataset.

Returns:

Il dizionario contenente i metadati di riferimento, che descrivono le feature dei dataset di riferimento.

Return type:

dict

Note

  • Il dizionario restituito è stato creato durante l’esecuzione della funzione report_drift quando il parametro return_meta_ref è impostato su True.

  • Questo dizionario può essere utile per ottenere informazioni di dettaglio sui dati di riferimento e per eseguire un’analisi più rapida del data drift delle feature.

Esempio di utilizzo:

>>> data_storico = pd.DataFrame({'feature_num': [1, 2, 3], 'feature_cat': ['A', 'B', 'A']})
>>> data_corrente = pd.DataFrame({'feature_num': [4, 5, 6], 'feature_cat': ['C', 'D', 'C']})
>>> drift_detector = DataDrift(data_storico, data_corrente, type_data="data")
>>> report = drift_detector.report_drift(stat="psi", return_meta_ref=True)
>>> meta_ref = drift_detector.get_meta_ref()
>>> meta_ref
{'feature_num': {'type': 'numerical',
    'min_val': 1,
    'max_val': 3,
    'not_missing_values': 3,
    'bin_0': {'min': -inf, 'max': 1.0, 'freq': 0.3333333333333333},
    'bin_1': {'min': 1.0, 'max': 2.0, 'freq': 0.3333333333333333},
    'bin_2': {'min': 2.0, 'max': inf, 'freq': 0.3333333333333333},
    'missing_values': 0.0},
    'feature_cat': {'type': 'categorical',
    'A': {'labels': ['A'], 'freq': 0.6666666666666666},
    'B': {'labels': ['B'], 'freq': 0.3333333333333333},
    'missing_values': 0.0}}