ReferenceMetaData.get_meta_reference¶
- ReferenceMetaData.get_meta_reference(data_reference, feat_to_check=None, nbins=1000, bin_min_pct=0.04, missing_values=True)¶
Genera un dizionario di metadati di riferimento per un dataset originale.
Questo dizionario include informazioni sui tipi di variabili (numeriche o categoriche), valori minimi e massimi, distribuzioni a bin/categorie, e informazioni sui valori mancanti.
- Parameters:
data_reference (pd.DataFrame) – Dataset originale su cui basare la creazione dei metadati di riferimento.
feat_to_check (list, opzionale) – Lista delle feature da analizzare. Se None, vengono analizzate tutte le colonne di data_reference. Default: None.
nbins (int, opzionale) – Numero massimo di bin in cui suddividere le feature numeriche. Default: 1000.
bin_min_pct (float, opzionale) – Percentuale minima di osservazioni per ciascun bin. Default: 0.04 (4%).
missing_values (bool, opzionale) – Se True, includerà informazioni sui valori mancanti per ogni variabile. Default: True.
- Returns:
Dizionario contenente i metadati di riferimento per ciascuna feature del dataset, inclusi tipo, valori minimi e massimi, distribuzioni a bin e percentuali di valori mancanti.
- Return type:
dict
Esempio:
>>> from model_monitoring.reference_metadata import ReferenceMetaData >>> data_storico = pd.DataFrame({'feature_num': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],'feature_cat': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'A', 'B', 'C']}) >>> RMD = ReferenceMetaData() >>> meta_storico = RMD.get_meta_reference(data_storico) >>> meta_storico {'feature_num': {'type': 'numerical', 'min_val': 1, 'max_val': 10, 'not_missing_values': 10, 'bin_0': {'min': -inf, 'max': 1.0, 'freq': 0.1}, 'bin_1': {'min': 1.0, 'max': 2.0, 'freq': 0.1}, 'bin_2': {'min': 2.0, 'max': 3.0, 'freq': 0.1}, 'bin_3': {'min': 3.0, 'max': 4.0, 'freq': 0.1}, 'bin_4': {'min': 4.0, 'max': 5.0, 'freq': 0.1}, 'bin_5': {'min': 5.0, 'max': 6.0, 'freq': 0.1}, 'bin_6': {'min': 6.0, 'max': 7.0, 'freq': 0.1}, 'bin_7': {'min': 7.0, 'max': 8.0, 'freq': 0.1}, 'bin_8': {'min': 8.0, 'max': 9.0, 'freq': 0.1}, 'bin_9': {'min': 9.0, 'max': inf, 'freq': 0.1}, 'missing_values': 0.0}, 'feature_cat': {'type': 'categorical', 'not_missing_values': 10, 'A': {'labels': ['A'], 'freq': 0.4}, 'B': {'labels': ['B'], 'freq': 0.3}, 'C': {'labels': ['C'], 'freq': 0.3}, 'missing_values': 0.0}}