題:
隨機誤差一定是高斯嗎?
Meep
2018-04-19 20:00:13 UTC
view on stackexchange narkive permalink

我已經看到隨機誤差定義為隨著測量次數達到無窮大而平均為0的誤差,並且該誤差同樣可能為正或負。這僅需要大約零的對稱概率分佈。但是,將這個問題輸入Google時,我沒有發現任何來源表明隨機錯誤可能不是高斯。為什麼隨機誤差必須是高斯的?

關於數學堆棧交換的這個問題可能很有趣:https://math.stackexchange.com/questions/2379271/why-do-bell-curves-appear-everywhere
評論不作進一步討論;此對話已[轉移為聊天](https://chat.stackexchange.com/rooms/76300/discussion-on-question-by-21joanna12-are-random-errors-necessally-gaussian)。
你好儘管我的回答獲得了很多選票,但我擔心它可能顯然無法解決該問題。如果您需要更多信息,請告訴我們。
隨機錯誤永遠不會是高斯。[所有統計模型都是錯誤的](https://en.wikipedia.org/wiki/All_models_are_wrong),但有些有用。將誤差建模為高斯模型通常是沒有用的。
您可以嘗試谷歌搜索“非高斯噪聲”
七 答案:
DanielSank
2018-04-19 21:39:11 UTC
view on stackexchange narkive permalink

隨機誤差一定是高斯嗎?

錯誤通常是高斯的,但並非總是如此。 以下是一些物理系統,其中隨機波動(或“誤差”(如果您處在變化的事物構成誤差的情況下)不是高斯):

  1. 曝光在光檢測器中的兩次點擊之間的時間分佈是指數分佈。$ ^ {[a]} $

  2. 光電探測器在固定時間內的點擊次數是泊松分佈。

  3. 由於均勻分佈的角度誤差,光束在一定距離外照射目標的位置偏移是柯西分佈。

  4. ol>

    我已經看到隨機誤差定義為隨著測量次數達到無窮大而平均為0的誤差,並且該誤差同樣可能為正或負。這只需要大約零的對稱概率分佈。

    有些分佈的正負權重相同,但對稱。 例: $$ P(x)= \ left \ {\ begin {array} {ll} 1/2 & x = 1 \\ 1/4 & x = -1 \\ 1/4 & x = -2 \,。 \ end {array} \ right。$$

    但是,在Google中輸入此問題時,我沒有找到任何來源表明隨機錯誤可能不是高斯。為什麼隨機誤差必須是高斯的?

    不容易找到非高斯隨機誤差的引用這一事實並不意味著所有隨機誤差都是高斯:-)

    如其他答案中所述,由於中心極限定理,自然界中的許多分佈都是高斯分佈。 中心極限定理說,給定根據函數$ X(x)$分佈的隨機變量$ x $,如果 if $ X(x)$具有有限的第二矩,則給定另一個隨機變量$ y $定義為$ x $的許多實例的平均值,即 $$ y \ equiv \ frac {1} {N} \ sum_ {i = 1} ^ N x_i \,,$$ 分佈$ Y(y)$是高斯分佈。

    問題是,許多物理過程是較小過程的總和。 例如,電阻兩端的波動電壓是來自許多單個電子的電壓貢獻之和。 因此,當您測量電壓時,您將獲得基本的“靜態”值,以及由噪聲電子產生的一些隨機誤差,由於中心極限定理,該誤差是高斯分佈的。 換句話說,高斯分佈很常見,因為自然界中如此多的隨機事物來自許多小貢獻的總和。

    但是,

    1. 在很多情況下,潛在錯誤機制的組成具有 not 有限的第二矩的分佈;柯西分佈是最常見的例子。

    2. 在很多情況下,錯誤根本不是許多小潛在貢獻的總和。

    3. ol>

      這兩種情況均會導致非高斯誤差。

      $ [a] $:請參見另一篇Stack Exchange帖子

的確,這些度量不是高斯分佈的。但是,我不確定OP是否會將它們視為錯誤,因為它們不是零中心的。
您可能會在光電探測器的時序測量中看到隨機(高斯)誤差(在(1)中),因此測得的事件不會顯示為_exactly_指數分佈。我認為這更是OP所要問的問題。
@HelloGoodbye通過減去均值,可以使任何事情都零中心化,順便說一句,這正是為什麼其中一些量會出現“錯誤”的原因。如果我有來自光子檢測器的平均電流,則由於檢測到的單個光子的泊松統計,該平均值上的“誤差”具有來自所謂的散粒噪聲的成分。
@EthanBolker也許。我想听聽OP的感受,他們是否希望對隨機數看起來像是“錯誤”的特定情況進行更多討論。
@EthanBolker的另一件事是,我可能會問您*為什麼*時序測量中存在高斯誤差,答案將歸結為具有高斯統計量的其他一些物理過程,例如此答案中描述的約翰遜噪聲。
我要補充一點,因為我們能夠很好地操縱結果分析和積分,所以我們經常假設隨機誤差是高斯的(或者非常接近於高斯的)。通常,更好地表徵誤差的分佈也太複雜了,以至於我們無法進行反分析
重要區別:自然界中的隨機事物來自許多小的(主要是獨立的)貢獻的總和。有限方差假設主要是數學上的技術性,但是貢獻的獨立性或最壞的情況是對情況的物理性方面。
您好-OP,謝謝您的所有回复。在我看來,涉及實驗測量時,問題的核心是中心極限定理。但是我認為J.G提出了一個有趣的觀點。我以前沒有考慮過實驗參數值的分佈與實驗誤差之間的區別。實際上,差異對我來說還不是100%清楚。我認為這主要與我們是否要尋找一個受一些基本波動(約翰遜噪聲,散粒噪聲等)影響的量的平均值有關,還是
我們是否正在嘗試尋找實驗誤差的分佈,它可能確實是由具有基本波動的量本身造成的,但是該量也可能具有確定的值,這些誤差完全來自其他來源,原則上可以消除。誠然,我們嘗試測量的大多數量可能都對這兩者都有貢獻,並且分佈與高斯的接近程度將取決於我們有多少個誤差源和它們自己的分佈-即中心極限定理。
lmr
2018-04-19 20:08:09 UTC
view on stackexchange narkive permalink

原因可能是中心極限定理:當您添加許多獨立隨機變量時,它們的總和將形成正態分佈,而與它們各自的概率分佈無關。如果您沒有有關錯誤起因的信息,或者您有多個錯誤源,則可以使正態分佈成為一個很好的猜測。此外,正態分佈通常發生在現實世界的過程中。

當然,但並非所有分佈都具有有限的第二矩,因此並非所有的隨機變量總和都是高斯分佈。此外,在很多情況下,隨機錯誤並非來自潛在的較小錯誤之和。因此,儘管高斯分佈很常見,但並不總是正確的。我了解到,這個答案表明高斯分佈是一個很好的猜測,這通常(通常)是正確的,但並非總是如此。
更精確地,當誤差是自變量的總和,以使每個變量的方差佔總方差的一小部分時,該總和接近正態分佈。如果您有一千個獨立變量,並且它們的方差之一是其他變量的一千倍,那麼除非該變量已經是高斯變量,否則就不會是高斯變量。
您的澄清是對的,但正如DanielSank所指出的-通常這是一個很好的猜測。當說不存在帶有不同隨機誤差的“單一來源”時,也許21joanna12誇大了一點;)但是,絕大多數自然發生的現象遵循高斯分佈。
為通用數據集進行檢查並非難事。許多人忽略了更高的時刻。
J.G.
2018-04-19 22:28:59 UTC
view on stackexchange narkive permalink

這裡的回答者通常回答了一個不同的問題,即經驗變量是否應為高斯,但是21joanna12詢問了實驗誤差,這承認了完全不同的分析。我可以推薦的關於該問題的最佳資源是E T Jaynes撰寫的《概率論:科學的邏輯》第7章。簡而言之,錯誤是高斯的,這有充分的理由(儘管並非總是如此):

  • 秒7.2考慮了 Herschel-Maxwell推導,該結果表明維度為 $ \ ge 2 $ span>的向量值誤差在正交笛卡爾坐標系中具有不相關的誤差分量和球對稱分佈必須具有高斯模量。 (嗯,實際上,這本書只明確地檢查了 $ 2 $ span>-維的情況,但是該參數很容易擴展。)
  • 秒7.3考慮了高斯推導,它表明高斯分佈是位置參數的MLE等於數據算術平均值的唯一方法。這種表示法假設 $ 1 $ span>維數據,但是我認為只要錯誤的笛卡爾坐標不相關,該論點就可以概括。
  • 秒7.5考慮了 Landau推導,它提出了泰勒級數論證,即一階有限誤差和零均值誤差 $ e $ span>具有pdf ,例如 $ p $ span>,滿足擴散方程 $ \ partial _ {\ sigma ^ 2} p = \ frac {1} {2} \ partial_e ^ 2 p $ span>,其中 $ \ sigma ^ 2 $ span>是方差參數。 $ \ sigma ^ 2 = 0 \隱含p(e)= \ delta(e)$ span>的要求意味著該解是高斯的。
  • 秒7.9顯示,在沒有先驗信息的情況下,一維錯誤的分佈具有以下屬性(如果它是高斯分佈): $ w_i \ ge 0 $ span>與 $ \ sum_i w_i = 1 $ span>可使樣本均值的估算器 $ \ sum_i w_i x_i $ span>的方差最小,而 $ x_i $ span>我們的 $ n $ span>經驗數據是 $ w_i= n ^ {-1} $ span>。
  • 第二節中討論的相關點。7.11是給定有限均值和方差的誤差,如果信息分佈為高斯,則該信息的熵最大。Jaynes認為,任何非熵最大化模型都會誇大我們從有限的知識中可以得出的結論。

但是,短秒。7.12(我完整復制了該示例)提供了一些示例,這些示例我們預期不會出現高斯誤差:

一旦我們理解了高斯推理成功的原因,我們還可以看到非常罕見的特殊情況,其中不同的採樣分佈將更好地表達我們的知識狀態。例如,如果我們知道錯誤是由於某些小物體不可避免的旋轉而產生的,則當它成角度 $ \ theta $ span >,錯誤為 $ e = \ alpha \ cos \ theta $ span>,但實際角度未知,稍微分析表明,先驗概率分配 $ p(e | t)=(\ pi \ sqrt {\ alpha ^ 2-e ^ 2})^ {-1},\,e ^ 2< \ alpha ^ 2 $ span>,正確描述我們對錯誤的了解狀態。因此,應該使用它代替高斯分佈;由於它具有較高的上限,因此與高斯方法相比,它可能會產生更好的估計值-即使 $ \ alpha $ span>未知,因此必須從數據中進行估計(或可能是需要估計的參數。

或者,如果已知錯誤的形式為 $ e = \ alpha \ tan \ theta $ span>,但 $ \ theta $ span>未知,我們發現先驗概率為柯西分佈 $ p(e | I)= \ pi ^ {-1} \ alpha /(\ alpha ^ 2 + e ^ 2)$ span>。儘管這種情況很少見,但我們將發現它是一個具有指導意義的練習,可以對柯西採樣進行分析 分佈,因為可能發生質上不同的事情。正統裁判認為這是“病理性例外情況”,但貝葉斯分析並不困難,這使我們能夠理解。

請注意,這些示例使用與Sec相同的貝葉斯技術。 7.11。

我不確定測量誤差與物理量波動之間是否存在差異。畢竟,測量設備是物理系統。
@DanielSank非常。但是,本頁上討論的許多變量都不屬於此類。
你能舉個例子嗎?
@DanielSank點擊計數。
從某種可能的意義上說,點擊計數不是底層物理過程的結果嗎?
我知道某些代數運算甚至在很大範圍的不同輸入上也能產生高斯分佈。我認為其他答案在他們對中心極限定理的引用中表明了這一點,與該答案對例如Herschel-Maxwell推導。該答案在使用其他答案稱為“答案”時使用引號是不必要的,並且僅使該帖子聽起來不必要地具有對抗性,對讀者沒有任何好處。
-1
JohnS
2018-04-19 20:30:34 UTC
view on stackexchange narkive permalink

許多物理現象的例子似乎受非高斯統計的支配。例如,在混合介質中光的多重散射中會產生Levy分佈,其中光子路徑長度遵循該分佈。

我認為,只要您遇到罕見但重要的事件,就會看到非高斯統計數據,例如黑子的分佈,兩次地磁反轉之間的時間等。高斯很好,因為它可以使分析相對容易計算(除了已經給出的原因)。在動力學系統中,對於非混沌系統,能量的能級間隔(通常)由泊松統計決定,而對於混沌系統,則由Wigner型統計決定。

徵費飛行的整個領域是巨大的。特別是在激光冷卻中。這本書很棒: Lévy統計和激光冷卻:罕見事件如何使原子靜止

Michael Hardy
2018-04-19 23:12:01 UTC
view on stackexchange narkive permalink

各種答案出現在這裡;我會添加一些還沒有的東西。

首先,為了使隨機誤差的期望值為$ 0 $,並且可能是正值或負值, b>不必使它們的分佈對稱於$0。$很容易找到很多反例。

現在假設 $$ Y_i = \ alpha_0 + \ alpha_1 x_ {1,i} + \ cdots + \ alpha_p x_ {p,i} + \ varepsilon_i \ text {for} i = 1,\ ldots,n。 $$ 我們假設

  • 錯誤$ \ varepsilon_i $是隨機的;術語$ \ alpha_0 + \ alpha_1 x_ {1,i} + \ cdots + \ alpha_p x_ {p,i} $不是。實際上,“隨機”是指每次您獲取新樣本$(Y_1,\ ldots,Y_n)$時,$ n $錯誤都會發生變化,而與先前$ n $觀測值的樣本無關。但是$ i = 1,\ ldots,n $的$ n \ times p $數字$ x_ {1,i},\ ldots,x_ {p,i} $不變;因此不是隨機的。

  • 每個錯誤的期望值為$ 0。$

  • 所有誤差均具有相同的方差$ \ sigma ^ 2。$
  • 這些錯誤彼此無關。

有些事情我們不 b>假設:

  • 我們不 b>假設錯誤是正態分佈的,或者,如果您願意,則為“高斯”。
  • 我們不 b>假設所有錯誤均具有相同的分佈。
  • 我們不 b>假設錯誤是獨立的。不相關性是一個較弱的假設。

請注意,最小二乘估計值\\ alpha_k $的$ \ widehat \ alpha_k $是線性組合$$ c_1 Y_1 + \ cdots + c_n Y_n,\ tag 1 $$其中係數$ c_1,\ ldots,c_n $取決於$ n \ timesp $數字$ x_ {1,i},\ ldots,x_ {p,i} $為$ i = 1,\ ldots,n。$

在這些假設下,我們可以證明,在所有線性組合$(1)$中,它們是$ \ alpha_k的無偏估計量,$估計均方誤差最小的那個是產生最小二乘估計的那個

那是高斯-馬爾可夫定理。

因此,我們不需要高斯分佈即可得出結論。

user121330
2018-04-23 00:33:40 UTC
view on stackexchange narkive permalink

高斯分佈通常是近似值,可以很好地起作用。從好的方面來說,它們的中位數,均值和眾數在對稱性上是相同的,並且找到方差的算法和所有其他顯著細節對於高中生,本科生和數學較少的學者來說都非常容易。

從另一方面來說,高斯分佈的範圍是所有數字。當我們認為許多實驗永遠不會產生超出某個範圍的值時,這是有問題的-具有絕對單位(高度,面積,時間,溫度等)的負值以及$ [之外的效率和其他無單位值0,1] $通常是荒謬的。高斯人也沒有機制來解釋偏度峰度。我們不理會它們,因為方差通常很低,以至於這些問題不會影響更大的結論。

隨機誤差通常不是用高斯分佈來描述的,但通常足夠好。

Steve Byrnes
2018-10-12 18:03:59 UTC
view on stackexchange narkive permalink

量化誤差是均勻分佈的隨機誤差的常見實際示例。

例如,您有一個電子秤,可讀出到最接近的0.1克。您在其中放入2.5376克粉末,其讀數為“ 2.5”。然後,您放入3.6264克粉末,其讀數為“ 3.6”。等等。您的讀數存在錯誤,在這種情況下,每次都是-0.05到+0.05之間的均勻分佈的隨機數。當然,從字面上看,它不是隨機的-它是輸入的確定性函數-但在許多情況下,可以將其視為隨機的。

(當然,與往常一樣,當您平均許多量化誤差時,它會通過中心極限定理接近高斯。)



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 3.0許可。
Loading...