ReferenceMetaData¶
- class model_monitoring.reference_metadata.ReferenceMetaData(meta_ref_dict=None)¶
Classe per la gestione e la creazione di metadati di riferimento.
La classe è utile per analizzare e mappare le feature di un dataset, includendo informazioni sui tipi di variabili, valori minimi e massimi, distribuzioni a bin e valori mancanti.
La classe offre i metodi necessari per:
Generare metadati di riferimento da un dataset di riferimento.
Mappare in metadati un nuovo dataset con i metadati di riferimento .
Le distribuzioni a bin rappresentano il risultato del processo di campionamento dei dati in gruppi ben definiti. Ogni bin ritorna il valore di occorrenza dei valori contenuti al suo interno. Per le feature categoriche, se questo valore non dovesse rispettare il valore minimo di occorrenza (vedi Note) il bin viene accorpato con il bin che ha la percentuale di occorrenza più bassa. Questo processo viene fatto in maniera iterativa fino a quando tutti i bin non risultano maggiori o uguali del valore minimo di occorrenza. Per le feature numeriche l’accorpamento viene fatto seguendo l’ordine della partizione.
Il processo di campionamento si traduce in:
Prendere le feature numeriche e campionarle in bin creati appositamente, seguendo dei valori di impostazione definiti dall’utente o predefiniti. Questi bin saranno definiti tra un valore minimo e uno massimo, quindi tutti i valori compresi in questo intervallo entreranno a far parte di un bin piuttosto che un altro. I bin estremi avranno come valore minimo o massimo dell’intervallo il valore infinito (positivo o negativo) per comprendere tutti i valori possibli.
Prendere le feature categoriche e campionarle in bin creati appositamente, seguendo dei valori di impostazione definiti dall’utente o predefiniti. Questi bin saranno definiti da una o più categorie, quindi tutti i valori appartenenti ad una delle categorie rappresentate da quel bin entreranno a far parte di esso. A differenza del caso delle feature numeriche in cui venivano considerati tutti i valori possibili qui vengono utilizzati solo i valori del dataset passato. Questo dettaglio comporta, per quanto riguarda la creazione dei metadati rispetto ad un altro dataset tramite il metodo get_meta_new, la creazione di un bin “fittizio” chiamato _other_ in cui saranno presenti eventuali categorie non presenti nel dataset di riferimento.
Le informazioni generate sono particolarmente utili in contesti di monitoraggio del modello, per verificare la coerenza tra i dati di addestramento e i nuovi dati in ingresso.
Note
I valori configurabili per la creazione dei bin sono il numero massimo di bin e la percentuale minima di occorrenza all’interno di ogni bin, rispettivamente i parametri nbins (default 1000) e bin_min_pct (default 0.04) nel metodo get_meta_reference.
Methods
Inizializza la classe ReferenceMetaData con un dizionario di metadati di riferimento opzionale.
Recupera i metadati per un nuovo dataset mappandolo con un dizionario di metadati di riferimento.
Genera un dizionario di metadati di riferimento per un dataset originale.