Ensemble de données de régression multivariée (régression multi-cible) où certains coefficients de régression sont connus pour être nuls
Je recherche un exemple de jeu de données pour la régression linéaire multivariée - également connu sous le nom de multi-cible ou multi-sortie. De préférence avec plus de 10 entrées et plus de 10 sorties. Il ne semble pas y avoir beaucoup de bons exemples. Idéalement, j'aimerais aussi que l'ensemble de données soit tel que certains coefficients de régression soient connus pour être nuls, c'est-à-dire que nous savons que certaines entrées n'affectent pas certaines sorties. J'ai créé un ensemble de données simulé, mais j'espère un véritable exemple d'ensemble de données.
Supposons qu'il y ait $p$ variables d'entrée et $q$ variables de réponse, et le modèle de régression est $Y = XC + \epsilon$.
$Y$ est un $n \times q$ matrice, $X$ est un $n \times p$ matrice, et $C$ est un $p \times q$matrice. Je recherche un ensemble de données où nous connaissons certaines entrées de$C$ sont 0, mais pas des lignes entières de $C$. En d'autres termes, nous n'avons pas de variables d'entrée qui n'affectent aucune sortie, juste des variables d'entrée qui n'affectent pas quelques variables de sortie.
Je ne peux pas sembler être beaucoup de bons ensembles de données pour multi-cibles, donc j'espère que quelqu'un pourra me diriger dans la bonne direction.
Merci
Réponses
Ce travail sur la régression multi-cibles fournit des informations détaillées sur les jeux de données utilisés
Edit: ignorez ce qui précède. Il s'agit de l'article référencé sur la régression multi-cible . Les ensembles de données utilisés sont rendus publics à ce lien:http://mulan.sourceforge.net/datasets-mtr.html
Vous pouvez facilement collecter des données comme celle-ci. Rassemblez des amis et demandez-leur d'écrire leur taille et les deux derniers chiffres de leur numéro d'identification ou de carte de crédit. Laisser$Y_1$ être hauteur, $Y_2$ être l'ID à deux chiffres, et $X_1$être le premier des deux chiffres. ensuite$X_1$ n'est pas lié à $Y_1$ mais fortement lié à $Y_2$.