首先介紹一下相關概念。
考慮一個預測模型,該模型可以是我們的數據科學研究中的一個組件。
如果我們想精確預測一個變量的值,那么我們首先要做的就是理解該變量的潛在特性。首先我們要知道該變量的可能取值,還要知道這些值是連續的還是離散的。簡單來講,如果我們要預測一個骰子的取值,那么第一步就是明白它的取值是1 到 6(離散)。第二步就是確定每個可能取值(事件)發生的概率。如果某個取值永遠都不會出現,那么該值的概率就是 0 。事件的概率越大,該事件越容易出現。在實際操作中,我們可以大量重復進行某個實驗,并記錄該實驗對應的輸出變量的結果。我們可以將這些取值分為不同的集合類,在每一類中,我們記錄屬于該類結果的次數。例如,我們可以投10000次骰子,每次都有6種可能的取值,我們可以將類別數設為6,然后我們就可以開始對每一類出現的次數進行計數了。我們可以畫出上述結果的曲線,該曲線就是概率分布曲線。目標變量每個取值的可能性就由其概率分布決定。一旦我們知道了變量的概率分布,我們就可以開始估計事件出現的概率了,我們甚至可以使用一些概率公式。至此,我們就可更好的理解變量的特性了。概率分布取決于樣本的一些特征,例如平均值,標準偏差,偏度和峰度。如果將所有概率值求和,那么求和結果將會是100%
世界上存在著很多不同的概率分布,而最廣泛使用的就是正態分布了。
版權申明:本內容來自于互聯網,屬第三方匯集推薦平臺。本文的版權歸原作者所有,文章言論不代表鏈門戶的觀點,鏈門戶不承擔任何法律責任。如有侵權請聯系QQ:3341927519進行反饋。