Set di dati di regressione multivariata (regressione multi-target) in cui alcuni coefficienti di regressione sono noti per essere zero
Sto cercando un set di dati di esempio per la regressione lineare multivariata, nota anche come multi-target o multi-output. Preferibilmente con più di 10 ingressi e più di 10 uscite. Non sembrano esserci molti buoni esempi. Idealmente, vorrei anche che il set di dati fosse tale che alcuni coefficienti di regressione siano noti per essere zero, cioè sappiamo che alcuni input non influenzano determinati output. Ho creato un set di dati simulato, ma spero in un set di dati di esempio reale.
Supponiamo che ci siano $p$ variabili di input e $q$ variabili di risposta e il modello di regressione è $Y = XC + \epsilon$.
$Y$ è un $n \times q$ matrice, $X$ è un $n \times p$ matrice e $C$ è un $p \times q$matrice. Sto cercando una serie di dati di cui conosciamo determinate voci$C$ sono 0, ma non intere righe di $C$. In altre parole, non abbiamo alcune variabili di input che non influenzano alcun output, ma solo alcune variabili di input che non influenzano alcune variabili di output.
Non riesco a essere molti buoni set di dati per multi-target, quindi spero che qualcuno possa indicarmi nella giusta direzione.
Grazie
Risposte
Questo lavoro sulla regressione multi-target fornisce informazioni dettagliate sui set di dati utilizzati
Modifica: ignora quanto sopra. Questo è il documento di riferimento sulla regressione multi-target . I dataset utilizzati sono resi pubblicamente disponibili a questo link:http://mulan.sourceforge.net/datasets-mtr.html
Potresti facilmente raccogliere alcuni dati come questo. Raduna alcuni amici e chiedi loro di annotare la loro altezza e le ultime due cifre del loro documento d'identità o del numero di carta di credito. Permettere$Y_1$ essere altezza, $Y_2$ essere l'ID a due cifre e $X_1$essere la prima delle due cifre. Poi$X_1$ non è correlato a $Y_1$ ma fortemente legato a $Y_2$.