Cómo derivar reglas categóricas de actualización de entropía cruzada para regresión logística multiclase

Nov 25 2020

Soy consciente de que hay una publicación similar: Vectorización de la pérdida de entropía cruzada

Pero mirándolo durante un par de horas, todavía no entiendo lo que están tratando de decir.

Estoy tratando de encontrar las reglas de actualización para usar la función de entropía cruzada en regresión logística multiclase, aquí para 10 clases.

Estoy confundido de lo que esto implica: ¿es este el costo de todo el conjunto de datos o solo el costo de un solo ejemplo? No estoy seguro de si y e y son escalares y la suma pasa por un solo ejemplo o si y e y son vectores y que la indexación i significa que pasa por todo el conjunto.

Suponiendo que está pasando por todo el conjunto de entrenamiento, ¿cómo lo derivamos con todos los thetas? ¿Cómo vectorizarlo y elaborar una regla de actualización general para todos los pesos?

Estaría muy agradecido por una respuesta: lo he intentado con lápiz y papel durante mucho tiempo y aún no lo he obtenido.

Gracias

Respuestas

1 gunes Nov 25 2020 at 16:12

Esto no abarca todo el conjunto de entrenamiento. Es por un solo ejemplo,$i$representa el índice de clase. Entonces, si tienes$n$ clases $\mathbf y$ y $\mathbf{ \hat y}$ son $n\times 1$ vectores reales. $\mathbf y$ es la verdad básica, por lo que será un vector binario con el índice correspondiente a la clase correcta para la muestra $1$ y otros siendo $0$.

Para encontrar los gradientes, puede asumir solo una muestra y luego sumar los gradientes para cada muestra de entrenamiento. Entonces, para simplificar, haga la diferenciación usando esta formulación, es decir$\frac{\partial L}{\partial \theta}$, dónde $y=\sigma( \theta^Tx+b)$.