로지스틱 함수의 데이터 샘플에 대한 선형 피팅

Aug 17 2020

간격에서 데이터 포인트를 균일하게 샘플링한다고 가정합니다. [-$a$; $a$] 그런 다음 이러한 데이터 포인트를 다음 형식의 로지스틱 함수에 전달합니다.

$f(x) = \frac{1}{1+e^{-\beta\cdot x}}$,

이러한 데이터 샘플 (x, f (x))에 선형 선을 맞 춥니 다. 이 선형 피팅의 예상 기울기를 다음 함수로 표현할 수 있습니까?$\beta$$a$?

(보너스 : tangens hyperbolicus 기능 $f(x)=\tanh(\beta x)$ 물류 기능 대신)

답변

2 jld Aug 18 2020 at 02:08

데이터가 있습니다 $X_1,\dots,X_n\stackrel{\text{iid}}\sim\text{Unif}(-a,a)$ 획득 $Y_i = \sigma(X_i)$ 어디 $\sigma(z) = \frac{1}{1+e^{-bx}}$.

단순 선형 회귀의 모집단 기울기는 다음과 같습니다.$\newcommand{\E}{\operatorname{E}}$ $$ \beta := \frac{\text{Cov}(X_i, Y_i)}{\text{Var}(X_i)} = \frac{\E(X\sigma(X)) - (\E X) (\E \sigma(X))}{\text{Var}(X)}. $$ $X$ 대칭이다 $0$ 그리고 분산은 알려진 균일 RV의 것입니다. 그래서 우리가 정말로 계산해야 할 것은 $\E(X\sigma(X))$. 이것은$$ \E(X\sigma(X)) = \frac 1{2a} \int_{-a}^a \frac{x}{1+e^{-bx}}\,\text dx. $$ 우리는 $$ \int \frac{1}{e^{-bx} + 1}\,\text dx = \int \frac{e^{bx}}{1 + e^{bx}}\,\text dx \\ = \frac 1b \int \frac 1u \,\text du = \frac 1b \log (e^{bx} + 1) $$ 부품별로 통합하여 $$ \E(X\sigma(X)) = \frac{1}{2ab}x\log(e^{bx}+1)\bigg\vert_{-a}^a - \frac 1{2ab}\int_{-a}^a \log(e^{bx} + 1)\,\text dx. $$ (일부 스케일링 상수를 제외하고) 첫 번째 항으로 우리는 $$ \log(e^{ab}+1) + \log(e^{-ab}+1) = \log\left[e^{ab}(e^{-ab}+1)\right] + \log(e^{-ab}+1) \\ = ab + 2\log(e^{-ab}+1) $$ 그래서 $$ \frac{1}{2ab}x\log(e^{bx}+1)\bigg\vert_{-a}^a = \frac a2 + \frac 1b \log(e^{-ab}+1). $$ 다른 용어로, 우리는 $u = -e^{bx}$ 그래서 $\frac 1{bu}\,\text du = \text dx$$\newcommand{\Li}{\operatorname{Li}_2}$ $$ \int_{-a}^a \log(e^{bx} + 1)\,\text dx = -\frac 1b \int_{-e^{ab}}^{e^{ab}} \frac{\log(1-u)}u\,\text du \\ = \frac 1b\left[\Li(e^{ab}) - \Li(-e^{ab})\right] $$ 어디 $\Li$은 IS dilogarithm의 기능. 모두 함께 의미$$ \E(X \sigma(X)) = \frac a2 + \frac 1b \log(e^{-ab}+1) + \frac{\Li(-e^{ab}) - \Li(-e^{-ab})}{2ab^2}. $$ 나는 형태의 무언가가 $\Li(z) - \Li(1/z)$. 사실을 사용하여$$ \Li(z) + \Li(1/z) = -\frac{\pi^2}6 - \frac 12 \log^2(-z) $$ 단 하나로 이것을 다시 쓸 수 있습니다 $\Li$ 그것에 : $$ \E(X \sigma(X)) = \frac a2 + \frac 1b \log(e^{-ab}+1) + \frac{-\frac{\pi^2}6 - \frac 12 a^2b^2 - 2 \Li(-e^{-ab})}{2ab^2} \\ = \frac a4 + \frac 1b \log(e^{-ab}+1) - \frac{\pi^2 + 12 \Li(-e^{-ab})}{12ab^2}. $$ 이것은 $$ \beta(a,b) = \frac{\frac a4 + \frac 1b \log(e^{-ab}+1) - \frac{\pi^2 + 12 \Li(-e^{-ab})}{12ab^2}}{a^2/3} \\ = \frac{3}{4a} + \frac{3}{a^2b}\log(e^{-ab}+1) - \frac{\pi^2 + 12 \Li(-e^{-ab})}{4a^3b^2}. $$

$\Li$ 특수 함수이며 일반적으로 기초 함수로 표현할 수 없습니다. $\Li$ 즉, 일반적인 기본 표현이 없습니다. $\beta$. 그러나 우리는 특정 값에 대한 기본 기능 측면에서 평가할 수 있습니다.$a$$b$. 그러한 가치 중 하나는$$ \Li\left(-\varphi\right) = -\frac{\pi^2}{10} - \log^2\varphi $$ 그래서 만약 $ab = -\log(\varphi)$ 그러면 우리는 평가할 수있을 것입니다 $\beta$기본 기능 측면에서. 이것의 예로서 우리는$$ a = \sqrt 2 \\ b = -\frac 1{\sqrt 2}\log(\varphi). $$ 비록 이것이 기본 기능의 관점에서도 여전히 정말 지저분한 표현이지만.

이것은 적분을 표현하기위한 많은 작업이었습니다. $\int_{-a}^a \frac{x}{1+e^{-bx}}\,\text dx$ 다른 적분의 관점에서 볼 때 가치는 닫힌 형태가 없다는 것을 보여줍니다. $\beta(a,b)$ 우리가 놓치고있는 것은 고품질 구현이 가능한 잘 연구 된 특수 기능과 관련이 있습니다.

확인할 시뮬레이션이 있습니다.

set.seed(111)
nsim <- 1e6
a <- 2.34
b <- 1.2
x <- runif(nsim, -a, a)
y <- 1 / (1 + exp(-b * x))

curve(plogis(b*x), -a, a, 500, col=4)
points(y[1:100]~x[1:100], cex=.5)

# I'm just integrating to avoid needing to load other libraries
Li2 <- function(z) -integrate(function(u) log(1-u)/u, 0, z)$value slopefunc <- function(a,b) { 3/(4*a) + 3 / (a^2 * b) * log(exp(-a*b) + 1) - (pi^2 + 12*Li2(-exp(-a*b))) / (4*a^3*b^2) } lm(y~x)$coef[2]
slopefunc(a,b)
cov(x, y) / var(x)