จะรวมค่าที่สังเกตได้ไม่ใช่แค่ความน่าจะเป็นในเอนโทรปีข้อมูลได้อย่างไร?
เอนโทรปีของแชนนอนวัดความไม่สามารถคาดเดาได้ในผลลัพธ์ของตัวแปรสุ่มเป็นค่าเฉลี่ยถ่วงน้ำหนักของความน่าจะเป็นของผลลัพธ์ของตัวแปรนั้นหรือค่าที่สังเกตได้ อย่างไรก็ตามมันจะละทิ้งค่าที่สังเกตได้จริงซึ่งความน่าจะเป็นได้มาจากการใช้ความน่าจะเป็นในสูตรแทนเท่านั้น สิ่งนี้ดูเหมือนจะเป็นการสูญเสียข้อมูลอย่างมีนัยสำคัญเนื่องจากเป็นค่าที่สังเกตได้ไม่ใช่ค่าความน่าจะเป็นซึ่งมีรายละเอียดเช่นขนาดและทิศทางของการรับรู้ของตัวแปรสุ่ม
ไม่มีตัวประมาณของเอนโทรปีที่รวมค่าที่สังเกตได้ควบคู่ไปกับความน่าจะเป็นดังนั้นจึงไม่ได้วัดจากความน่าจะเป็นเพียงอย่างเดียวหรือไม่? ตัวอย่างเช่นการวัดเอนโทรปีที่ปรับปรุงแล้วซึ่งเป็นค่าเฉลี่ยถ่วงน้ำหนักของความน่าจะเป็นและค่าที่สังเกตได้อย่างไร?
คำตอบ
เอนโทรปีสามารถที่จะพัฒนาเป็นความประหลาดใจที่คาดว่าจะเป็นฉันพยายามในการตีความทางสถิติของการจัดจำหน่ายสูงสุดเอนโทรปี ตอนนี้ฉันจะทำงานให้กับกรณีแยกส่วน แต่ส่วนใหญ่สามารถนำไปใช้กับกรณีต่อเนื่องได้
กำหนดฟังก์ชันเซอร์ไพรส์ $\sigma \colon p \mapsto \sigma(p)$ซึ่งส่งความน่าจะเป็นไปยังค่าที่น่าประหลาดใจของเหตุการณ์ที่มีความน่าจะเป็นนั้น เมื่อคุณรู้สึกประหลาดใจน้อยลงจากเหตุการณ์ที่น่าจะเป็นไปได้$\sigma$ ควรจะลดลงและ $\sigma(1)=0$ในขณะที่คุณไม่แปลกใจเลยกับเหตุการณ์บางอย่างที่เกิดขึ้น ฟังก์ชั่นแปลกใจ$\log\left( \frac1p \right)$ นำไปสู่เอนโทรปีของแชนนอน
ก่อนอื่นให้เชื่อมต่อกับตัวอย่างในคำตอบอื่นโดย @Richard Hardy แสดงค่าที่ไม่ต่อเนื่องโดย$x_i$และสมมติว่าเป็นจำนวนจริง สมมติว่ามีอย่างใดอย่างหนึ่ง$x_m =\mu$มูลค่าที่คาดหวังและสิ่งนั้น $p(x_i)\leq p(x_m)$, และถ้า $(x_i-\mu)^2 \geq (x_j-\mu)^2$ ถ้าอย่างนั้น $p_i \leq p_j$. ในกรณีนี้$$ \sigma \colon x\mapsto (x-\mu)^2$$เป็นฟังก์ชันที่น่าประหลาดใจและความประหลาดใจที่คาดว่าสอดคล้องกันคือความแปรปรวน ด้วยวิธีนี้เราสามารถพิจารณาความแปรปรวนเป็นเอนโทรปีชนิดหนึ่ง!
กลับไปที่ลักษณะทั่วไป ตระกูลของฟังก์ชันที่น่าประหลาดใจคือ$$ \sigma_\alpha \colon [0,1]\mapsto [0, \infty]; \quad \sigma_\alpha(p)=\begin{cases} (1-\alpha)^{-1} (1-p^{\alpha-1})&, \alpha\not=1 \\ -\log p &, \alpha=1 \end{cases}$$ ความประหลาดใจที่คาดหวังจะกลายเป็น $$ D_\alpha(p_1, \dotsc, p_n)=\sum_i p_i \sigma_\alpha(p_i) = \\ \begin{cases} (\alpha-1)^{-1} (\left( 1-\sum_i p_i^\alpha\right) &, \alpha\not=1 \\ -\sum_i p_i\log p_i &, \alpha=1 \end{cases} $$ และเราได้ใช้ชื่อนี้ $D$เพราะในระบบนิเวศนี้เป็นที่รู้จักกันหลากหลาย (ในขณะที่ความหลากหลายทางชีวภาพ .) ในระบบนิเวศหนึ่งมักจะนำเสนอนี้ในทางโดยใช้แนวคิดของอีกจำนวนที่มีประสิทธิภาพของสายพันธุ์ แนวคิดก็คือระบบนิเวศที่มี$n$ สปีชีส์มีความหลากหลายมากที่สุดหากความถี่ของทุกสายพันธุ์เหมือนกันดังนั้น $p_i=1/n$. ในกรณีอื่น ๆ เราสามารถคำนวณบางส่วนได้$\text{effective number of species }\leq n$. ฉันเขียนเกี่ยวกับเรื่องนี้ไว้ที่นี่: ดัชนี Herfindahl-Hirschman แตกต่างจากเอนโทรปีอย่างไร ดังนั้นจะไม่ทำซ้ำ ในกรณีของเอนโทรปีของแชนนอนจำนวนชนิดที่มีประสิทธิผลจะได้รับจากเลขชี้กำลังของเอนโทรปี ตอนนี้เขียน$A=\{p_1, \dotsc, p_n\}$ และ $$ \lvert A \rvert = e^{H(A)} =\prod_i p_i^{-p_i} $$ และเรียกสิ่งนี้ว่าความสำคัญของ $A$เพื่อให้ชื่อทางคณิตศาสตร์มีประโยชน์นอกระบบนิเวศด้วย คิดว่านี่เป็นการวัดขนาดของ$A$. ตอนนี้เราต้องการขยายสิ่งนี้สำหรับฟังก์ชันเซอร์ไพรส์ทั้งหมด$\sigma_\alpha$. ผลลัพธ์คือ (ในขณะที่ฉันก้าวข้ามการพัฒนา)$$\lvert A \rvert_\alpha = \begin{cases} \left( \sum_i p_i^\alpha\right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i p_i^{-p_i}&, \alpha=1 \end{cases} $$ ตอนนี้เราสามารถกลับไปที่สเกลเอนโทรปีได้โดยหาลอการิทึมและเราจึงกำหนด $\alpha$-entropy โดย $H_\alpha(A)=\log \lvert A \rvert_\alpha$. โดยปกติเรียกว่า Renyi-entropy และมีคุณสมบัติทางคณิตศาสตร์ที่ดีกว่า$\alpha$- ความหลากหลาย. ทั้งหมดนี้และอื่น ๆ สามารถพบได้เริ่มต้นที่นี่
มาตรการที่เราได้พูดคุยไปจนถึงตอนนี้ใช้ความน่าจะเป็นเท่านั้น $p_i$ดังนั้นเราจึงยังไม่ได้ตอบคำถาม --- ดังนั้นอดทนหน่อย! ก่อนอื่นเราต้องมีแนวคิดใหม่:
จำนวนช่องว่างของเมตริก Let$A$ เป็นชุดของคะแนน $a_1, \dotsc, a_n$ ด้วยระยะทางที่กำหนด $d_{ij}$ ($d_{ij}=\infty$ได้รับอนุญาต) คิดว่านี่เป็นช่องว่างแบบ จำกัด แต่ไม่ชัดเจนว่าเราต้องการสัจพจน์สเปซเมตริกทั้งหมดจริงๆ กำหนดเมทริกซ์$Z=\left( e^{-d_{ij}}\right)_{i,j}$ และเวกเตอร์ $w$ เป็นวิธีแก้ปัญหาใด ๆ ของ $Z w = \left(\begin{smallmatrix}1\\ \vdots \\1 \end{smallmatrix}\right)$. $w$เรียกว่าการถ่วงน้ำหนักของ$A$. ตอนนี้เราสามารถกำหนดจำนวนสมาชิกของ$A$ เป็นผลรวมของส่วนประกอบของ $w$, $$ \lvert A \rvert_\text{MS} =\sum_i w_i $$ มันเป็นแบบฝึกหัดที่จะแสดงสิ่งนี้ไม่ได้ขึ้นอยู่กับการเลือกของ $w$. ตอนนี้เราต้องการขยายคำจำกัดความนี้เป็น ...
ปริภูมิความน่าจะเป็นของเมตริก $A=(p_1, \dotsc, p_n; d)$ ที่ไหน $d$เป็นฟังก์ชันระยะทางเมตริก ไปยังแต่ละจุด$i$เราเชื่อมโยงความหนาแน่น $\sum_j p_j e^{-d_{ij}}$. ตั้งแต่$e^{-d_{ij}}$ คือ antimonotone ในระยะไกล $d$มันแสดงถึงความใกล้ชิดดังนั้นความหนาแน่นจึงสามารถมองเห็นได้ว่าเป็นความใกล้ชิดที่คาดหวังไว้รอบ ๆ จุด$i$ซึ่งอธิบายถึงความหนาแน่นของคำศัพท์ กำหนดเมทริกซ์ความคล้ายคลึงกัน $Z=\left( e^{-d_{ij}}\right)_{i,j}$ และเวกเตอร์ความน่าจะเป็น $p=(p_1, \dotsc, p_n)$. ตอนนี้$Zp$คือเวกเตอร์ความหนาแน่น ตัวอย่างเช่นถ้าระยะทางทั้งหมด$d_{ij}=\infty$ แล้ว $Z=I$เมทริกซ์เอกลักษณ์ดังนั้น $Zp=p$.
ตอนนี้เราจะสรุปโดยการแทนที่ในหลาย ๆ สูตร $p$ ด้วย $Zp$.
ความประหลาดใจก่อนหน้านี้ขึ้นอยู่กับความน่าจะเป็นของเหตุการณ์ที่สังเกตได้เท่านั้น ตอนนี้เราจะพิจารณาถึงความน่าจะเป็นของจุดใกล้เคียงด้วย ตัวอย่างเช่นคุณอาจจะประหลาดใจมากกับงูหลามที่แมนฮัตตัน แต่ตอนนี้เราจะวัดความประหลาดใจนั้นโดยคำนึงถึงความน่าจะเป็นของงูตัวอื่นด้วย ...$\sigma$ตอนนี้ความประหลาดใจที่คาดหวังได้ถูกกำหนดให้เป็น $\sum_i p_i \sigma\left( (Zp)_i\right)$ สำหรับพื้นที่เมตริกที่ไม่ต่อเนื่องกับทั้งหมด $d_{ij}=\infty$นี่คือไม่มีการเปลี่ยนแปลง
ตอนนี้ความหลากหลายกลายเป็นเรื่องทั่วไปไปแล้ว$$ D_\alpha(A)=\sum_i p_i \sigma_\alpha\left( (Zp)_i\right)= \begin{cases} (\alpha-1)^{-1} \left(1-\sum_i p_i(Zp)_i^{\alpha-1} \right)&,\alpha\not=1 \\ -\sum_i p_i \log\left( (Zp)_i\right) &, \alpha=1\end{cases} $$ ตัวอย่างเช่นด้วย $\alpha=2$, $D_2(A)= p^T \Delta p$, $\Delta=\left( 1-e^{-d_{ij}}\right)_{i,j}$ เรียกว่าดัชนีความหลากหลายกำลังสองของ Rao หรือเอนโทรปีกำลังสองของ Rao
$\alpha$-Cardinalityตามที่เรามี$$ \lvert A\rvert_{\alpha} = \frac1{\sigma_\alpha^{-1}(D_\alpha(A))}= \begin{cases} \left( \sum_i p_i (Zp)_i^{\alpha-1} \right)^{\frac1{1-\alpha}}&,\alpha\not=1 \\ \prod_i (Zp)_i^{-p_i} &, \alpha=1 \end{cases} $$ และตอนนี้ ...
$\alpha-entropy$ หาได้จากการหาลอการิทึมของ $\alpha$-cardinality และด้วยวิธีนี้เราได้รับเอนโทรปีที่ระยะห่างระหว่างจุดมีบทบาท ทั้งหมดนี้และอื่น ๆ อีกมากมายสามารถพบได้ที่นี่ที่ n-หมวดหมู่คาเฟ่ นี่ยังคงเป็นทฤษฎีที่ค่อนข้างใหม่ดังนั้นจึงสามารถคาดหวังการพัฒนาใหม่ ๆ ได้ แนวคิดนี้มีพื้นเพมาจากนักนิเวศวิทยาเชิงทฤษฎี
เอนโทรปีวัดปริมาณการสุ่มหรือความประหลาดใจของปรากฏการณ์ / การทดลองแบบสุ่มไม่จำเป็นต้องเป็นตัวแปรสุ่ม (ไม่จำเป็นต้องกำหนดตัวแปรหลัง)
สำหรับคำถามของคุณการวัดการแพร่กระจายเช่นค่าเบี่ยงเบนสัมบูรณ์ค่าเฉลี่ยความแปรปรวนและสิ่งที่คล้ายกันอาจเกี่ยวข้อง เช่นความแปรปรวนอาจแน่นอนได้รับการพิจารณาสมมติฐานวัดเอนโทรปีที่เป็นค่าเฉลี่ยถ่วงน้ำหนักของความน่าจะเป็นและ [สังเกต] ค่า สำหรับตัวแปรสุ่มแบบต่อเนื่องพร้อมความคาดหวัง$\mu_X$ และความหนาแน่นของความน่าจะเป็น $f(x)$, $$ \text{Var}(X)=\int_{-\infty}^{\infty}(x-\mu_X)^2f(x)\ dx; $$ สำหรับค่าที่ไม่ต่อเนื่องกับค่าที่เป็นไปได้ $x_1,\dots,x_n$ ด้วยความน่าจะเป็นที่สอดคล้องกัน $p_1,\dots,p_n$ และด้วยความคาดหวัง $\mu_X$, มันคือ $$ \text{Var}(X)=\sum_{i=1}^{n}(x_i-\mu_X)^2 p_i. $$ คุณสามารถดูทั้งค่าที่เป็นไปได้และความน่าจะเป็น / ความหนาแน่นที่มีบทบาท