《生物統(tǒng)計學》PPT課件.ppt
本門課程的學習要求,掌握生物統(tǒng)計學的基本原理和基本概念; 掌握科學地收集、整理和分析數(shù)據(jù)資料的基本知識與技能; 初步掌握設計實驗的基本方法,培養(yǎng)從事教學和科研工作的能力。,通過本課程的學習,緒論,一、生物統(tǒng)計學的概念 二、生物統(tǒng)計學的產(chǎn)生和發(fā)展 三、在生物學科研工作中的作用 四、學習生物統(tǒng)計學的方法,主要內(nèi)容,無處不在的統(tǒng)計,1980年6月,首屆國際紅樓夢研討會在美國召開,威斯康星華裔學者陳炳藻獨樹一幟,宣讀了題為從詞匯上的統(tǒng)計論紅樓夢作者的問題的博士論文。他從字、詞出現(xiàn)頻率入手,通過計算機進行統(tǒng)計、處理、分析,對紅樓夢后40回系高鶚所作這一流行看法提出異議,認為120回均系曹雪芹所作。 精確到小數(shù)點的愛情-統(tǒng)計學博士的求婚信,統(tǒng)計數(shù)字,大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的 作品比作他的私生子。 最使他頭痛的是巴黎統(tǒng)計學會的秘書長李昂納,這人是大仲馬的朋友,每次舉統(tǒng)計數(shù)字的例子,總是說大仲馬的情婦和私生子有多少。 有一年該統(tǒng)計學會開年會,大仲馬估計,李昂納又要大放厥詞,說他的壞話了。于是他請求參加年會,獲得了批準,果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。 李昂納報告完畢,請大仲馬致詞。一向不愿在大庭廣眾之下發(fā)表演講的大仲馬,這次卻破例登臺說:“所有統(tǒng)計數(shù)字都是撒謊的,包括有關本人的數(shù)字在內(nèi)?!甭牨姾逄么笮Α?數(shù)學家的幽默,統(tǒng)計學家調(diào)侃數(shù)學家:你們不是說若且,則嗎!那么想必你若喜歡一個女孩,那么這個女孩喜歡的男生你也喜歡吧? 數(shù)學家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因為它們平均不過是五十度而已!”,由上可知,統(tǒng)計與數(shù)量有關,同時它已經(jīng)滲透到社會經(jīng)濟活動和科學研究的方方面面,統(tǒng)計無處不在。,案例,在一個水庫中養(yǎng)著許多魚,管理人員希望了解魚的大致數(shù)量,這就是一個實踐中的統(tǒng)計學問題。,由于魚不聽從指揮,會在各處自由游動的,因此,在進行統(tǒng)計時,必須創(chuàng)造性地提出解決方案。,一種解決方法,先從水庫的不同位置一共捕上來1000條魚,在每條魚的尾部作上一個標記,應當保證標記不會影響魚的自由游動。然后,將魚全部放回水庫。幾天后,從水庫中再捕上來1000條魚,檢查其中尾巴上有標記的魚的數(shù)量。假定在第二次捕上來的1000條魚中,有20條尾巴上做了標記,則可以推斷,水庫中魚的總數(shù)大致為:,1000(201000)5萬條。,統(tǒng)計(Statistics)的涵義,統(tǒng)計是人們認識客觀世界總體數(shù)量變動關系和變動規(guī)律的活動的總稱,是認識客觀世界的有力工具。 統(tǒng)計的研究對象的特點: (一)數(shù)量性。統(tǒng)計數(shù)據(jù)是客觀事物量的反映。 (二)總體性。統(tǒng)計的數(shù)量研究是對現(xiàn)象總體中各單位普遍存在的事實進行大量觀察和綜合分析。 (三)變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預知的。,概念:生物統(tǒng)計學是應用概率論和數(shù)理統(tǒng)計原理來研究生物界數(shù)量變異規(guī)律的一門科學。,實質:生物統(tǒng)計學從研究思路上看,它是以樣本來推斷總體的一門學科。,特點:1、概率性:研究手段是概率論以及建立在概率論基礎上的數(shù)理統(tǒng)計方法,更主要的是其結論是不確切的。 2、歸納性:生物統(tǒng)計學由樣本來推斷總體的研究思路是由特殊到一般的歸納過程。3、實踐性,生物統(tǒng)計學的概念,1894年,發(fā)表了一系列生物統(tǒng)計學的論文,奠定生物統(tǒng)計學的基礎(英國畢爾生)。 哥爾頓(Galton)在十九世紀末葉,應用統(tǒng)計方法研究人種特征與遺傳,創(chuàng)立了生物統(tǒng)計學。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,英國人達爾文的侄子弗朗西斯哥爾頓直到1883年才發(fā)明出“優(yōu)生學”這個詞。一開始,高爾頓的提議沒有博得積極的反應。很多人對他的人工控制生育的思想感到震驚。 人們對高爾頓的遺傳觀點也非常懷疑。再者,因為出身名門的孩子通常能比普通人受到更好的教育,所以怎么肯定他們的能力就是天生的呢?,生物統(tǒng)計學的產(chǎn)生和發(fā)展,后來,哥爾頓花了很多的精力,提出一種生物學上的統(tǒng)計技術,以直接回應最初出現(xiàn)的懷疑態(tài)度(Cowan, 1972b)。他更加詳細地表明,遺傳控制了人口的性質。他將統(tǒng)計學方法應用于變異的研究,這也為生物統(tǒng)計學派的研究道路奠定了基礎。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,后來,他的學生卡爾皮爾遜(KPearson)利用生物統(tǒng)計學來捍衛(wèi)達爾文主義。可以認為,皮爾遜定量技術的真實結構反映出他想為優(yōu)生學政策提供明確科學證據(jù)的欲望(Mack enzie, 1982)。在皮爾遜的學生RA費舍爾那里也發(fā)現(xiàn)同樣的觀點(Bennett, 1983; No rton, 1983)。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,1820年法國人Laplace及同時代的Gauss發(fā)現(xiàn)正態(tài)分布,卡爾皮爾遜在1906年繼續(xù)主持哥爾頓試驗室,他所提出的卡方(2)測驗在遺傳學上研究性狀分離時被廣泛應用。他的學生WSGosset所提出的值測驗法已成為當代生物統(tǒng)計工作的基本工具之一。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,我國在二十世紀三十年代就出版有實用生物統(tǒng)計學(王綬,1937年),并且成為必修課,在許多方面加以應用。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,生物統(tǒng)計學近年來發(fā)展甚速,從中又分支為生物統(tǒng)計遺傳學、生態(tài)統(tǒng)計學、毒理統(tǒng)計學等等。當前,由于電子計算機的普及,使運算技術出現(xiàn)新的躍進,原來十分繁瑣的計算變得十分簡單、迅速,而且更加精確。應用統(tǒng)計方法以及先進的試驗設計來進行分析、研究,在生物學的研究中將越來越顯得重要。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,在生物學科研工作中的作用,生物學是一門實驗科學。不管你從事的是生物學的哪一個分枝,都不可能完全脫離實驗,只進行邏輯推理。而實驗所得到的結果幾乎無例外地都帶有或多或少的不確定性,即實驗誤差。在這種情況下不用統(tǒng)計學要想得到正確的結論是不可能的。,在生物學科研工作中的作用,可以毫不夸張地說,作為一個實驗科學工作者,離開了統(tǒng)計學就寸步難行。希望大家通過這門課程的學習,能夠掌握常用的統(tǒng)計方法,尤其是它們的條件,適用范圍、優(yōu)缺點等,從而能夠應用它們?nèi)ソ鉀Q實踐中遇到的問題。,生物統(tǒng)計學是運用數(shù)理統(tǒng)計的的原理和方法來分析和解釋生物界各種現(xiàn)象和試驗調(diào)查資料的一門科學。隨著生物學的不斷發(fā)展,生物統(tǒng)計學在水產(chǎn)養(yǎng)殖、水生生物、漁業(yè)資源及捕撈等水產(chǎn)學科領域已有廣泛應用。,在生物學科研工作中的作用,生物統(tǒng)計學在設計、質控、數(shù)據(jù)管理、統(tǒng)計分析、結果評價等各個環(huán)節(jié)均發(fā)揮了重要作用。,統(tǒng)計研究的基本環(huán)節(jié),統(tǒng)計設計,收集數(shù)據(jù),整理與分析,資料積累 開發(fā)應用,統(tǒng)計學理論與相關實質性學科理論,描述統(tǒng)計 推斷統(tǒng)計,統(tǒng)計調(diào)查、實驗,統(tǒng)計研究的全過程包括以下基本環(huán)節(jié):,(一)統(tǒng)計設計 根據(jù)所要研究問題的性質,在有關學科理論的指導下,制定統(tǒng)計指標、指標體系和統(tǒng)計分類,給出統(tǒng)一的定義、標準。同時提出收集、整理和分析數(shù)據(jù)的方案和工作進度等。搞好統(tǒng)計設計不僅要有統(tǒng)計學的一般理論和方法為指導,而且還要求設計者對所要研究的問題本身具有深刻的認識和相關的學科知識。 (二)收集數(shù)據(jù) 統(tǒng)計數(shù)據(jù)的收集有兩種基本方法。對于大多數(shù)自然科學和工程技術研究來說,有可能通過有控制的科學實驗去取得數(shù)據(jù),這時可以采用實驗法。對于社會經(jīng)濟現(xiàn)象來說,一般無法進行重復實驗,要取得有關數(shù)據(jù)就必須進行調(diào)查觀察。,(三)整理與分析 描述統(tǒng)計是指對采集的數(shù)據(jù)進行登記、審核、整理、歸類,在此基礎上進一步計算出各種能反映總體數(shù)量特征的綜合指標,并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計信息。 推斷統(tǒng)計是在對樣本數(shù)據(jù)進行描述的基礎上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計或檢驗總體的數(shù)量特征。推斷統(tǒng)計是現(xiàn)代統(tǒng)計學的主要內(nèi)容。 (四)統(tǒng)計資料的積累、開發(fā)與應用 對于已經(jīng)公布的統(tǒng)計資料需要加以積累,同時還可以進行進一步的加工,結合相關的實質性學科的理論知識去進行分析和利用。如何更好地將統(tǒng)計數(shù)據(jù)和統(tǒng)計方法應用于各自的研究領域是應用統(tǒng)計學研究的一個重要方面。,理解 統(tǒng)計思想,掌握 統(tǒng)計術語,熟悉 統(tǒng)計符號,記住 統(tǒng)計公式,使用 統(tǒng)計工具,學習生物統(tǒng)計學的方法,常用統(tǒng)計工具,計算器,統(tǒng)計數(shù)表,如二項分布表、泊松分布表、 標準正態(tài)分布表、 t分布表等,能完成函數(shù)功能(對數(shù)計算、乘高次方、開高次方等)和統(tǒng)計功能(計算平均數(shù)、標準差、變量值平方和等),統(tǒng)計軟件,如Excel、 SPSS、 SAS、TSP( 時間序列數(shù)據(jù)軟件 )等,第一章 統(tǒng)計資料的收集與整理,1.1 總體與樣本 1.2 數(shù)據(jù)類型及頻數(shù)(率)分布 1.3 樣本的幾個特征數(shù),總體(集合)和個體(構成集合的元素),根據(jù)研究目的確定的、符合指定條件的全部觀察對象稱為總體。一般用希臘字母表示總體數(shù)值,如,等。 注意:,(2)總體具有同質性:每個個體具有共同的觀察特征,而與其它總體相區(qū)別;,(1)按組成總體個體的多寡分為:有限總體和無限總體;,注意,統(tǒng)計總體的種類,指所包含的單位數(shù)目有限的總體,指所包含的單位數(shù)目無限的總體,樣本和樣本容量,總體中抽出若干個個體組成的集體稱為樣本。一般用拉丁字母表示樣本數(shù)值,如、等。 樣本中包含的個體的個數(shù)稱為樣本的容量,又稱為樣本的大小。通常用表示。一般以樣本含量少于30者為小樣本,大于30者為大樣本。 注意:抽樣是按隨機原則選取的,即總體中每個個體有同樣的機會被選入樣本。,樣本與總體之間的關系,樣本是總體的一部分,是對總體隨機抽樣后得到的集合。 對觀察者而言,總體是不了解的,了解的只是樣本的具體情況。我們所要做的就是通過對這些具體樣本的情況的研究,來推知整個總體的情況。,Xn+1,Xn,X1,Xn+1,Xn,X1,樣本,總體,總體單位,調(diào)查單位,統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,普 查,統(tǒng)計調(diào)查的組織方式,對全部單位進行調(diào)查,總體單位,調(diào)查單位,重點調(diào)查,只調(diào)查重點單位(單位數(shù)不多但其標志量占標志總量比重較大的單位),統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,抽樣調(diào)查,按隨機原則選擇調(diào)查單位,各單位被選中的機會相同。,統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,典型調(diào)查,對典型單位進行調(diào)查,典型單位的選擇并不一定按規(guī)模,統(tǒng)計調(diào)查的組織方式,按照 隨機原則 從調(diào)查對象中抽取一部分樣本單位進行調(diào)查,再用樣本資料推斷把握總體的數(shù)量特征的一種非全面調(diào)查組織方式,抽樣,指樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個總體單位都有均等的被抽中機會,特 點,優(yōu) 點,1.2 數(shù)據(jù)類型及頻數(shù)(率)分布,一、資料類型 二、資料搜集與整理 三、頻數(shù)(率)分布常用統(tǒng)計圖(表),資料的分類,正確地進行資料的分類是資料整理、分析的前提。通過試驗或調(diào)查所獲得的資料一般可以分為三大類:,一、數(shù)量性狀資料 (data of quantitative characteristics) 二、質量性狀資料 (data of qualitative characteristics) 三、半定量(等級)資料 (semi-quantitative or ranked data),資料的分類,一、數(shù)量性狀資料,(一)概念 數(shù)量性狀是指能夠以測量、稱量或計數(shù)的方法表示其特征的性狀。 觀察測定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料。,(二)分類 數(shù)量性狀資料的記載有量測和計數(shù)兩種方式,因而數(shù)量性狀又分為計量資料和計數(shù)資料兩種。,一、數(shù)量性狀資料,(二)分類 1.計量資料:指用量測手段得到的數(shù)量資料。 這種資料的各個觀察值不一定是整數(shù),兩個相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)值的多少由度量工具的精度而定,它們之間的變異是連續(xù)性的。因此亦稱為連續(xù)性變異資料。 例如身高、產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標等屬于連續(xù)性數(shù)量性狀資料。,一、數(shù)量性狀資料,連續(xù)型資料,在一個區(qū)間內(nèi)可以連續(xù)不斷取值的資料,人的身高、牲畜產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標等,需要使用度量工具取值,身高的例子:,(二)分類 2計數(shù)資料:指用計數(shù)方式得到的數(shù)量資料。 它的各個觀察值只能以整數(shù)表示,兩個相鄰整數(shù)不得有任何帶小數(shù)的數(shù)值出現(xiàn)。因此,該類資料也稱不連續(xù)性變異資料或間斷(離散)性變異資料。 如豬的產(chǎn)仔數(shù)、雞的產(chǎn)蛋數(shù)、魚的尾數(shù)、寄生蟲蟲卵數(shù)等。,一、數(shù)量性狀資料,離散型資料,其一切可能取值都以整數(shù)形式出現(xiàn),并可以一一列舉的資料,特定范圍的人口數(shù)、林木株數(shù)、畜禽數(shù)量等等,取值不需要用工具度量,用計數(shù)的方式即可,二、質量性狀資料,(一)概念和特點 質量性狀是指只能觀察而不能測量的性狀。 這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對其觀察結果作數(shù)量化處理。,(二)質量性狀數(shù)量化的方法 1、統(tǒng)計次數(shù)法 質量性狀數(shù)量化常采用統(tǒng)計次數(shù)法,所謂統(tǒng)計次數(shù)法是指在一定的總體或樣本中,根據(jù)某一質量性狀的類別統(tǒng)計其個體數(shù)。這種由質量性狀數(shù)量化得來的資料又叫次數(shù)資料。,二、質量性狀資料,(二)質量性狀數(shù)量化的方法 . 評分法:對某一質量性狀,因其類別不同分別給予評分以便統(tǒng)計分析。例如研究綿羊的油汗色澤遺傳時,可將種油汗色澤分別給予不同的分數(shù):深黃分、黃色分、淺黃分、乳白分、白色分。,二、質量性狀資料,三、半定量(等級)資料,(一)概念 半定量或等級資料是指將觀察單位按所考察的性狀或指標的等級順序分組(三組以上),然后清點各組觀察單位的次數(shù)而得的資料。,(二)特點 這類資料既有次數(shù)資料的特點,又有程度或量的不同。 如糞便潛血試驗的陽性反應是在涂有糞便的棉簽上加試劑后觀察顏色出現(xiàn)的快慢及深淺程度分為六個等級;又如用某種藥物治療畜禽的某種疾病,療效分為“無效”、“好轉”、“顯效”和“控制”四個級別;然后統(tǒng)計各級別的供試畜禽數(shù)。半定量資料在獸醫(yī)研究中是常見的。,三、半定量(等級)資料,資料搜集與整理,統(tǒng)計工作一般分為三個步驟:收集資料、整理資料和分析資料。 搜集資料(數(shù)據(jù))是進行統(tǒng)計工作的第一步也是最重要的一步。如果搜集數(shù)據(jù)的計劃不周密,原始記錄不正確,往往會造成整理、分析的困難,甚至得出錯誤的結論,而這些缺點難以在以后的兩個步驟中補救的。,在搜集資料時,應注意如下幾點:,. 要有目的性 . 要有代表性 . 樣本含量要恰當,資料整理的內(nèi)容,在調(diào)查或試驗中所得到的大量數(shù)據(jù)是分散的數(shù)據(jù)。要了解事物總的特征和發(fā)展情況,必須對這些數(shù)據(jù)進行科學的分組歸納,使數(shù)據(jù)系統(tǒng)化,便于進一步統(tǒng)計分析以及反映被研究事物的規(guī)律性,這個過程稱為數(shù)據(jù)的整理。,通常我們用X表示變量,原始資料的檢查與核對 資料的整理 依次表(小樣本) 計數(shù)資料的整理與分組 (采用樣本數(shù)據(jù)的自然值進行分組 ) 計量資料的整理與分組 (組距式分組法 ) 質量性狀資料、半定量(等級)資料的整理,資料整理的內(nèi)容,獲得的資料在未整理之前,稱為原始資料。對原始資料可從以下兩個方面進行檢查: 1資料的完整性 原始記錄有無遺漏或重復 2資料的正確性 原始數(shù)據(jù)是否正確、合理,有無矛盾,特別注意特大或特小數(shù)據(jù)及異常數(shù)據(jù)。,一、資料的檢查與核對,二、資料的整理,(一)計數(shù)資料的整理 (二)計量資料的整理 (三)質量性狀資料、半定量(等級)資料)的整理,對原始資料進行檢查核對后,根據(jù)資料中觀察值的多少確定是否分組。 1.當觀察值不多,變異范圍不大時,不必分組,直接進行統(tǒng)計分析。(依次表) 2.當觀察值較多,變異范圍較大時,須將觀察值分成若干組,以便統(tǒng)計分析。 將觀察值分組歸類制成次數(shù)分布表(“唱票式”) 看出資料的集中和變異情況。,(一)計數(shù)資料的整理,依次表、分組,當數(shù)據(jù)不多時可不必分組,這時可將變數(shù)按數(shù)值大小依次排列起來,形成一個由小到大的數(shù)字表,稱為“依次表” 。 當數(shù)據(jù)較多時,如30個變數(shù)以上的大樣本,制成“依次表”則較麻煩,這時需要將數(shù)據(jù)分成若干組,以便統(tǒng)計分析。,表1-1 10只大白鼠的繁殖力 單位:只,例如,表1-1為10只大白鼠繁殖力的記錄,在未加整理以前只是一堆數(shù)字,看不出資料的任何意義。,依次表,如將表1-1整理成依次表(表1-2),可以看出10只大白鼠中繁殖力變異的情況,即產(chǎn)仔數(shù)最高為8只,最低為3只,變異范圍為3-8只。,依次表,大白鼠編號,產(chǎn) 仔 數(shù),8 3 5 10 1 4 7 2 9 6,3 4 5 5 6 6 6 7 7 8,表1-2 10只大白鼠的繁殖力依次表 單位:只,表1-3 50只小雞的出殼天數(shù),從上表可以看出,小雞出殼天數(shù)在19-24之間變動,用觀察值各個不同值進行分組。,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,(二)計量資料的整理 -組距式分組法,求全距 全距是數(shù)據(jù)內(nèi)變量最大值與最小值之差,它是整個樣本的變異幅度。 確定組數(shù) 組數(shù)的決定可用經(jīng)驗分組法,它與樣本的個體數(shù)有關。 確定組距 每一組內(nèi)變量的范圍跨度稱為組距。組距=全距/組數(shù) 確定組中值及組限 數(shù)據(jù)歸組(以唱票的方式),表1-5 按樣本含量決定組數(shù),返回,組距式分組將要使用的相關概念,總的變異范圍。簡稱全距(或極差),用R 來表示。,變異全距,變異全距的計算公式:,相關概念,“以上”組距數(shù)列的上限值“以下”組距數(shù)列的下限值。,假定上限假定下限,開口式組距數(shù)列組中值的計算:,首組假定下限首組上限相鄰組組距 末組假定上限末組下限相鄰組組距,先計算開口組的假定上、下限:,因此有:,以某純系蛋雞200枚蛋重資料為例說明其整理的基本步驟和方法: 1、求全距R。 資料中,最大值為62.1g,最小值為45.3g, 則全距為62.1-45.3=16.8g 2、確定組數(shù)K。組數(shù)要適當,一般以達到既簡化資料又不影響反映資料的規(guī)律性為原則。具體可參照表1-5.本例n=200,初步確定組數(shù)為11組。,某純系蛋雞200枚蛋重 單位:g,3、確定組距i。每組最大值與最小值之差稱為組距,記為i。 本例 4、確定組限及組中值。各組的最大值與最小值稱為組限,最小值為下限,最大值為上限。組中值是該組的代表值。 第一組的組中值以接近或等于資料中的最小值為好。本例第一組的組中值取45.0(最小值45.3),則第一組的下限,第一組上限為:44.25+1.5=45.75 (第二組下限) 第二組上限為:45.75+1.5=47.25 (第三組下限) 依次類推,第三組47.25; 第四組48.75;依次分組下去,直到資料中的最大值歸入最后一組為止。 但為了避免個別數(shù)據(jù)歸組的兩面性(假如資料中有一枚重為47.25g,是將其歸入第二組,還是歸入第三組呢?),通常將每組的上限略去不寫。如第一組44.25,第二組45.75,第三組47.25 ,。 5、歸組劃線計數(shù),作次數(shù)分布表(“唱票式”)和次數(shù)分布圖。,表1-6 某純系蛋雞200枚蛋重的次數(shù)分布表,孟德爾在研究分離規(guī)律時用純種圓滑和純種皺縮的豌豆的雜交子一代進行自交試驗,他記錄了10個植株所結種子的形態(tài),在原始記錄中,種子有兩種類型:圓滑、皺縮。 將原始記錄(443粒)按種子類型進行分組,(三)質量性狀資料、半定量 (等級)資料的整理,表1-7 10株子一代自交后分離情況,表1-8 10株子一代自交后分離情況,表1-9 10株子一代自交后分離情況,(三)質量性狀資料、半定量 (等級)資料的整理,可按性狀或等級進行分組,分別統(tǒng)計各組的次數(shù),然后制成次數(shù)分布表。 表1-10 子二代豬毛色分離情況,累計次數(shù)(頻率),從變量值低的組開始,將各組次數(shù)(頻率)逐次向變量值高的組累計,說明某一組上限以下各組的累計次數(shù)(頻率)。,從變量值高的組開始,將各組次數(shù)(頻率)逐次向變量值低的組累計,說明某一組下限以上各組的累計次數(shù)(頻率)。,某地區(qū)50個百貨商店月銷售額情況,某地區(qū)50個百貨商店月銷售額情況,某地區(qū)50個百貨商店月銷售額情況,常用統(tǒng)計表與統(tǒng)計圖,統(tǒng)計表是用表格形式來表示數(shù)量關系,使數(shù)據(jù)條理化、系統(tǒng)化,便于理解、分析和比較。 統(tǒng)計圖是用幾何圖形來表示數(shù)量關系,不同形狀的幾何圖形,可以將研究對象的特征、內(nèi)部構成、相互關系等形象直觀地表達出來,便于分析比較。,統(tǒng)計表,(一)統(tǒng)計表的結構和要求 統(tǒng)計表由標題、橫標目、縱標目、線條、數(shù)字及合計構成。 (二)統(tǒng)計表的種類 1. 簡單表 由一組橫標目和一組縱標目組成,縱橫標目都未分組。 2. 復合表 由兩組或兩組以上的橫標目與縱標目結合而成, 或一組橫標目與兩組或兩組以上的縱標目結合而成,或兩組或組以上的橫、縱標目結合而成。,表1-11 北京某點取暖期SO2濃度次數(shù)分布表,標題,橫標目,縱標目,數(shù)字,合計,Example,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,Example,標題,縱標目,數(shù)字,合計,出殼天數(shù) 劃線計數(shù) 次數(shù),19 20 21 22 23 24,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,合計,橫標目,一個圖只用來顯示一種現(xiàn)象的數(shù)量特征,統(tǒng)計圖,(一)統(tǒng)計圖繪制的基本要求 (二)常用統(tǒng)計圖及其繪制方法 1.條形圖 2.直方圖 3.圓形圖 4.線圖(折線圖) 5.散點圖 (特別是隨著計算機技術的發(fā)展,統(tǒng)計圖的種類越來越豐富),幾種常用的統(tǒng)計圖,幾種常用的統(tǒng)計圖,一、平均數(shù)(主要介紹算術平均數(shù)Arithmetic Mean) 二、標準差(Standard Deviation) 三、變異系數(shù) (Coefficient of Variability),1.3 樣本的幾個特征數(shù),次數(shù)分布表和次數(shù)分布圖,可以形象、直觀地表示出資料的兩個特征集中性和離散性。為了更簡單、精確地描述資料的特征,本節(jié)介紹三個統(tǒng)計量:平均數(shù)、標準差和變異系數(shù)。 平均數(shù)反應資料的集中性,標準差和變異系數(shù)反應資料的離散性。,平均數(shù)(Mean),平均數(shù)的意義: 平均數(shù)用來描述資料的集中性,即指出資料中數(shù)據(jù)集中較多的中心位置。,平均數(shù)的作用: 平均數(shù)是資料的代表數(shù); 常用于同類性質資料間的相互比較。 平均數(shù)的種類:其中應用最為普遍的是算術平均數(shù),此外還有幾何平均數(shù)、中數(shù)、眾數(shù)和調(diào)和平均數(shù) 。,平均數(shù)(Mean),算術平均數(shù) (Arithmetic Mean),(一)算術平均數(shù)的定義 資料中各觀察值的總和除以觀察值的個數(shù)所得的商,稱為算術平均數(shù)。在統(tǒng)計學中,簡稱為平均數(shù)或均數(shù)。用符號 表示。,算術平均數(shù) (Arithmetic Mean),(二)計算方法 1、直接法 對樣本含量較小,未分組的資料適用。,其中,(Sigma)為總和符號, 表示從第一個觀察值 x1 累加到第n個觀察值 xn ,若在意義上已明確時,簡記為 。,算術平均數(shù) (Arithmetic Mean),關于總和符號的幾個性質,常數(shù)的總和等于該常數(shù)的n倍,即 代數(shù)和的總和等于總和的代數(shù)和,即 總和符號內(nèi)的常數(shù)因子可以提取到總和符號之外,即,其中C為常數(shù);注意:在后面一些章節(jié)經(jīng)常會遇到C代表一個為常量的式子,(a為常數(shù)),2、加權法,適用于已分組的資料,各組的次數(shù) fi 是權衡各組中值 xi 在資料中所占比重大小的數(shù)量,因此f被稱為是x的“權”(right),加權法也由此而得名。,xi 各組組中值; fi 各組次數(shù); k 分組數(shù)。,(三)平均數(shù)的基本性質,1、樣本各個觀察值與平均數(shù)之差的和為零,即離均差之和為零; 2、樣本各觀察值與平均數(shù)之差的平方和為最小,即離均差的平方和最小。,3、統(tǒng)計學已證明,樣本平均數(shù) 是總體平均數(shù) 的無偏估計值。 對總體而言,用 表示平均數(shù)。 無偏估計:當一個統(tǒng)計量的數(shù)學期望值等于等于相應總體參數(shù)時,稱該統(tǒng)計量為其總體參數(shù)的無偏估計。,(三)平均數(shù)的基本性質,幾何平均數(shù) (Geometric Mean),(一)定義 指n個觀察值乘積的n次方根。即,幾何平均數(shù) (Geometric Mean),(二)適用條件 主要應用于數(shù)據(jù)呈倍數(shù)關系或不對稱分布的資料,算術平均數(shù)對這類資料的代表性差。如抗體效價(1:10,1:100,1:1000,1:10000)、增長率或生長率、動態(tài)發(fā)展速度等。,1、應用公式計算(實際應用時常取對數(shù)),例如,海蝦養(yǎng)殖試驗,各旬的生長速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海蝦的旬平均生長速度。 ,即海蝦旬平均生長速度為1.38。,幾何平均數(shù) (Geometric Mean),2、當資料編成次數(shù)分布表時,,各組組中值; 各組次數(shù);,幾何平均數(shù) (Geometric Mean),xi,fi,標準差(Standard Deviation),平均數(shù)是資料的代表數(shù),其代表性強弱受資料中各觀察值變異程度的影響。僅利用平均數(shù)對一個資料的統(tǒng)計特征作全面描述是不夠的,還應引入一個能說明資料各觀察值變異程度大小的統(tǒng)計量。,用來表示資料變異程度的指標較多,常用的有極差、標準差、變異系數(shù)、方差等,其中以方差與標準差應用最為廣泛。,標準差(Standard Deviation),一、標準差的引入 全距(極差):只利用了資料中最大值和最小值,不能準確表達資料中各個觀察值的變異程度。,標準差(Standard Deviation),一、標準差的引入 離均差 可表達觀察值偏離平均數(shù)的程度和性質,但由于離均差之和為零,因此它不能表示整個資料中所有觀察值的總偏離程度。 若用 ,使用起來又不方便,在統(tǒng)計學中未被采用。,標準差(Standard Deviation),為消除離均差的負號,先將各離均差平方 ;再求離均差的平方之和(簡稱平方和,記為 SS) ,為消除樣本含量的影響以離均差的平方和除以自由度n-1。 則統(tǒng)計量 稱為均方(縮寫為MS),又稱為樣本方差,記為S2 ,即:,標準差(Standard Deviation),它不能表示整個資料中所有觀察值的總偏離程度,使用不方便,在統(tǒng)計學中未被采用,消除離均差的負號,離均差的平方之和(簡稱平方和,記為SS),稱為均方(縮寫為MS),又稱為樣本方差,記為S2,標準差,相應總體參數(shù)叫總體方差,記為2 由于樣本方差帶有原度量單位的平方單位,為將單位還原,即求樣本方差的平方根。在統(tǒng)計學上,樣本方差S2的平方根叫做標準差,記為S。 相應總體參數(shù)叫總體標準差(),對于有限總體,,(一)直接法,(二)加權法,標準差(Standard Deviation),二、標準差的計算,變異系數(shù) (Coefficient of Variation),一、變異系數(shù)的引入 變異系數(shù)是標準差相對于平均數(shù)的百分數(shù),記為CV。 變異系數(shù)同標準差一樣是衡量資料變異程度的統(tǒng)計量。變異系數(shù)消除了不同單位和平均數(shù)的影響,可以用來比較不同資料的相對變異程度。,變異系數(shù) (Coefficient of Variation),二、計算公式,三、特點和作用 (一)變異系數(shù)是一個無單位的相對數(shù),用表示; (二)變異系數(shù)同時受到平均數(shù)和標準差的影響,因此,在利用變異系數(shù)來表示資料的變異程度時,最好將平均數(shù)和標準差也列出。,變異系數(shù) (Coefficient of Variation),三、特點和作用 (三)變異系數(shù)不受單位不同或平均數(shù)不同的影響,對于單位不同和平均數(shù)不同的資料,都可以用變異系數(shù)來比較其變異程度。,變異系數(shù) (Coefficient of Variation),三匹馬的體重:200 Kg、201 Kg、202 Kg 三只螞蟻的體重:500 mg、1000 mg、1500 mg,案例,S1=0.816 Kg S2=0.40825 g,變異系數(shù) (Coefficient of Variation), S1 S2 馬的體重的離散程度(變異程度)大于螞蟻的體重變異?,不能。其實三匹馬的體重相差不大;而螞蟻之間體重是有很大差別的。原因在于基數(shù)不同,這時不能直接用S比較。,變異系數(shù) (Coefficient of Variation),上例:,=0.816/201=0.0041,=408.25/1000=0.40825,CV1CV2 螞蟻的體重變異程度大于馬的體重的變異程度,變異系數(shù) (Coefficient of Variation),作業(yè)17/9,p18 1.2 1.12,計數(shù)資料的整理與分組基本是采用樣本變數(shù)的自然值進行分組,每組均用一個變數(shù)值來表示。分組時可將資料中每個變數(shù)分別歸入相應的組內(nèi),然后制成次數(shù)分布表。 例如,40只大白鼠的產(chǎn)仔數(shù)如下表所示,計數(shù)資料的整理與分組,分組,計數(shù)資料的整理與分組,分組,表1-12 40只大白鼠的產(chǎn)仔數(shù) 單位:只,產(chǎn) 仔 數(shù),3 4 5 6 7 8,表1-13 40只大白鼠繁殖力的次數(shù)分布表 單位:只,大白鼠數(shù),5 3 9 11 9 3,合計,40,計量資料的整理與分組,計量資料的整理與分組是采用組距式分組法。在分組前先確定全距、組數(shù)、組距、組中值、組限等,然后將各變數(shù)的值分別歸入相應的組內(nèi)。,分組,表1-14 100株橡膠樹膠乳產(chǎn)量表 (單位:毫升/株次),26,133,2、確定組數(shù),編制步驟:,【解】,1、求全距,取K= 10組,樣本個體數(shù)是100,查表1-5,可分為10組,本例中,k=10,則有,3、確定組距I:,確定組中值及組限,I=R/K=107/10=10.7,為分組方便起見,可以11作為組距,第一組的下限不能大于資料的最小值,而末一組的上限不能小于資料的最大值,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,表1-15 100株橡膠樹膠乳產(chǎn)量次數(shù)分布表 (單位:毫升/株次),第一節(jié) 概率的基本概念,一、隨機現(xiàn)象與隨機事件 二、概率的統(tǒng)計定義 三、概率的古典定義 四、概率的一般運算,第二章 概率和概率分布,一、隨機現(xiàn)象與隨機事件,隨機現(xiàn)象與必然現(xiàn)象 事件 事件間的關系 事件的運算,隨機事件,在客觀世界中,不斷地出現(xiàn)和發(fā)生一些事物和現(xiàn)象。這些事物和現(xiàn)象可以統(tǒng)稱為事件。時間的發(fā)生有一定的條件。 經(jīng)分析,就因果關系來看,有一類事件是在一定的條件下必然發(fā)生的(如水到0會結冰,一年會有四個季節(jié))。這種在一定的條件下必然發(fā)生的事件稱為必然事件。 另有一類事件在一定的條件下是必然不發(fā)生的(如石頭不能孵化成小雞,太陽不會從西邊出來)。這種在一定的條件下必然不發(fā)生的事件稱為不可能事件。,隨機事件,必然事件或不可能事件雖然不同,但又具有共性,即在因果關系上都具有確定性。 除了必然事件和不可能事件以外,在客觀世界中還有另外一類事件,這類事件發(fā)生的條件和事件的發(fā)生與否之間沒有確定的因果關系。這種發(fā)生的條件和發(fā)生與否之間沒有確定的因果關系的事件稱為隨機事件。,隨機事件,在長期的實踐中人們發(fā)現(xiàn),雖然對隨機事件作一兩次或少數(shù)幾次觀察,隨機事件的發(fā)生與否沒有什么規(guī)律,但如果進行大量的觀察或試驗,又可以發(fā)現(xiàn)隨機事件具有一定的規(guī)律性。,隨機事件,比如一枚硬幣,投擲一次或幾次的時候看不出什么規(guī)律,但是在同樣的條件下反復多次進行試驗,把硬幣投擲成千上萬次,就會發(fā)現(xiàn)硬幣落地時正面朝上和反面朝上的次數(shù)大致是相等的。,隨機現(xiàn)象與必然現(xiàn)象,所謂隨機現(xiàn)象,就是在基本條件不變的情況下,各次實驗或觀察會得到不同的結果的現(xiàn)象,而且這一結果是不能準確預料的。 例:血球計數(shù),昆蟲密度調(diào)查,某一時刻車間中開動的車床數(shù),優(yōu)秀選手射擊彈著分布,抽樣時某一樣品合格與否等等。,隨機現(xiàn)象與必然現(xiàn)象,必然現(xiàn)象則是指在一定條件下必然會發(fā)生的現(xiàn)象。 例:早晨太陽從東方升起,水向低處流,萬有引力,標準大氣壓,純水100沸騰等等。,事件,隨機事件 樣本空間(定義:在一組固定的條件下所進行的試驗或觀察, 其可能出現(xiàn)的結果稱為樣本點,一般用表示。全體樣本點的所構成的集合稱為樣本空間,一般用表示。 ) 基本事件 必然事件 不可能事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,是雄性的情況:,0只,1只,2只,基本事件,基本事件,基本事件,事件,至少1只雄性的情況:,1只,2只,基本事件,基本事件,事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,包括02只雄性的情況:,必然事件,包括3只雄性的情況:,不可能事件,事件間關系,設A、B均為事件,則它們可能有以下關系: 包含事件:若A發(fā)生,則B必然發(fā)生,此時稱A包含于B,或B包含A。記為:A B,或B A。 例:正正 兩幣相同 相等事件:若A B,且B A,則稱A與B相等,記為A=B。 例:反反=正面不出現(xiàn) 對立事件:由所有不包含在A中的樣本點所組成的事件稱為A的逆事件,或A的對立事件,記為 。(也可稱為“非A”) 例: =正反,反正=兩幣不同,Venn圖:用圖解的方法表示集合間的關系。如:,A,B,相離 相交 包含,事件間關系,事件的運算,事件的和 事件的交 互不相容事件,已知事件A,B,我們可以通過它們構成一些新的事件: 交:同時屬于A及B的樣本點的集合。記為:AB或AB,此時A與B同時發(fā)生。 和(并):至少屬于A或B中一個的全體樣本點的集合,記為AB。此時可能A,B都發(fā)生,也可能只發(fā)生一個。 互不相容:若AB=,則稱A與B互不相容。樣本點一定是互不相容的。,事件的運算,事件的運算,運算規(guī)律: (1)交換律:AB=BA,AB=BA (2)結合律: (AB)C=A(BC) (AB)C=A(BC) (3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC),事件的運算,例:A、B、C是三個事件,請用運算式表示下列事件: (1)A發(fā)生,B與C不發(fā)生: (2)A與B都發(fā)生而C不發(fā)生: (3)至少發(fā)生一個: (4)恰好發(fā)生一個: (5)恰好發(fā)生二個:,事件的運算,例:A、B、C是三個事件,請用運算式表示下列事件: (1) (2) (3)A B C (4) (5),事件的運算,概率,在數(shù)學中有兩個分支,即概率論和數(shù)理統(tǒng)計。研究隨機事件統(tǒng)計規(guī)律的學科稱為概率論。由隨機現(xiàn)象的一部分實測資料研究和推求隨機事件全體的規(guī)律的學科稱為數(shù)理統(tǒng)計。 概率是表示統(tǒng)計規(guī)律的方式。用概率可以表示和度量在一定條件下隨機事件出現(xiàn)或發(fā)生的可能性。 針對不同的情況,概率有不同的定義。 按照數(shù)理統(tǒng)計的觀點,事物和現(xiàn)象都可以看為是試驗的結果。,二、概率的統(tǒng)計定義,概率的統(tǒng)計定義如下:在一組不變的條件下,重復作k次試驗,記l是事件A發(fā)生的次數(shù),當試驗次數(shù)很大時,如果頻率l/k穩(wěn)定地在某一數(shù)值p的附近擺動,而且一般說來隨著試驗次數(shù)的增多,這種擺動的幅度愈變愈小,則稱A為隨機事件,并稱數(shù)值p為隨機事件A的概率,記作P(A)= p,二、概率的統(tǒng)計定義,1、不恒定性:k, l, 2、穩(wěn)定性:P= 概率 3、性質:p23,三、概率的古典定義,從17世紀中葉,人們就開始研究隨機現(xiàn)象,當時這種興趣或需要主要是由賭博引起的,因此人們首先注意的是這樣一類隨機事件:它們只有有限個可能的結果,即只有有限個樣本點,同時這些樣本點出現(xiàn)的可能性相等。這樣的概率空間稱為古典概型。由于樣本點是等可能的,很自然地,人們就把事件A的概率定義為A所包含的樣本點數(shù)與樣本點總數(shù)的比值,即,例:五個身高不同的人,隨機站成一排,問恰好是按身高順序排列的可能性有多大?,三、概率的古典定義,解:五個人隨機排列,則排法共有5!種。有利場合則為從高到矮,或從矮到高,共兩種。因此所求概率為:,例:有一組小白鼠共20只,其中8只雄,12雌?,F(xiàn)從中任取5只,問其中有2只是雄,3只是雌的概率是多少?,四、概率的一般運算,解:,四、概率的一般運算,概率加法 條件概率 乘法公式 獨立事件 貝葉斯(Bayes)公式(或稱逆概公式),四、概率的一般運算,概率加法 定理:對任意事件A、B, P(AUB)= P(A)+P(B)P(AB),四、概率的一般運算,概率加法 例:在人口調(diào)查中發(fā)現(xiàn),10歲以下人口(A1)占該地區(qū)人口的30%,1120歲(A2)占20%;2130歲(A3)占20%; 3140歲(A4)占10%;4150歲(A5)占10%;51歲以上(A6)占10%。問任意抽取1人,他是20歲以下的概率是多少?,解:事件A1A6是互不相容事件,故 P(A1A2)= P(A1)+P(A2) =0.30+0.20=0.50,四、概率的一般運算,條件概率 定義:若A,B為兩個事件, 且P(B)0,則記,稱為事件B發(fā)生的條件下事件A發(fā)生的概率。,四、概率的一般運算,條件概率 假定男女孩出生率相同,設A為二個孩子家庭有一男孩一女孩這一事件,求P(A)。,解:顯然=(男男),(男女),(女男),(女女) ,四、概率的一般運算,條件概率 這里要特別注意的是不能認為樣本空間只有如下三個樣本點:(兩男),(兩女),(一男一女)。上述三個樣本點不是等可能的。這是因為對(兩男)與(兩女)來說,沒有順序問題,交換順序后仍是兩男或兩女;但對一男一女來說就不同了,它實際上是由兄妹與姐弟兩個樣本點組成。因此只有采用(兄弟),(兄妹),(姐弟),(姐妹)四個樣本點才能構成古典概型的樣本空間,只有這樣才能保證等可能性,而等可能性正是古典概型計算公式的基礎。,四、概率的一般運算,條件概率 若已知該家庭至少有一女孩,則有一男一女的概率為多大?,解:設B為至少有一女孩,當B發(fā)生時,樣本點只剩三個:(男女),(女男),(女女)。,四、概率的一般運算,乘法公式 乘法定理:,四、概率的一般運算,乘法公式 例:從一副撲克牌中連續(xù)抽取2張,問2張都是紅方塊的概率是多少?,事件B為第二張是紅方塊,P(B/A)= =,=,四、概率的一般運算,獨立事件 對任意事件A和B,若P(AB)=P(A)P(B), 則稱A,B是獨立的。 B的發(fā)生對A沒有任何影響,也沒有提供任何消息,反之也一樣。,四、概率的一般運算,獨立事件 例:在某地區(qū)中學生中,女生占40%,患近視眼的占5%。從該地區(qū)學生中任取一人,則求其既是女生又是患近視眼的P。,解:A女生;B近視;A、B是獨立事件 P(AB)=P(A)P(B)=0.40.05=0.02,5)貝葉斯公式,設A1,A2,An是兩兩互斥的事件,且P(Ai)0,i=1,2,n, 另有一事件B,它總是與A1,A2,An 之一同時發(fā)生,則,貝葉斯,Thomas Bayes,該公式于1763年由貝葉斯(Bayes)給出. 它是在觀察到事件B已發(fā)生的條件下,尋找導致B發(fā)生的每個原因的概率.,貝葉斯公式有著十分廣泛的用途,它之所以被稱為逆概公式,是因為它實際是在知道結果的情況下來推斷原因:A1,A2,An,是可能導致B出現(xiàn)的原因。P(Ai)是各種原因出現(xiàn)的可能性大小,一般是過去經(jīng)驗的總結,稱為先驗概率。若現(xiàn)在已知B出現(xiàn)了,我們要求它是由哪個原因引起的概率,這就是 ,稱為后驗概率。它反映了試驗之后對原因發(fā)生可能性大小的新知識。例如醫(yī)生診斷病人所患何?。ˋ1,A2,An,中的某一個),他確定某種癥狀B(如體溫,某種化驗指標等等)出現(xiàn),現(xiàn)在實際就是求 ,通過比較它們的大小就可對疾病作出診斷。此時貝葉斯公式顯然是很有用的。,貝葉斯公式在實際中有很多應用,它可以幫助人們確定某結果(事件 B)發(fā)生的最可能原因.,例 某一地區(qū)患有癌癥的人占0.005,患者對一種試驗反應是陽性的概率為0.95,正常人對這種試驗反應是陽性的概率為0.04,現(xiàn)抽查了一個人,試驗反應是陽性,問此人是癌癥患者的概率有多大?,則 表示“抽查的人不患癌癥”.,求解如下:,設 A=抽查的人患有癌癥, B=試驗結果是陽性,,求P(A|B).,已知 P(A)=0.005,P( )=0.995, P(B|A)=0.95, P(B| )=0.04,現(xiàn)在來分析一下結果的意義.,由貝葉斯公式,可得,代入數(shù)據(jù)計算得: P(A|B)= 0.1066,2. 檢出陽性是否一定患有癌癥?,1. 這種試驗對于診斷一個人是否患有癌癥 有無意義?,如果不做試驗,抽查一人,他是患者的概率 P(A)=0.005,患者陽性反應的概率是0.95,若試驗后得陽性反應,則根據(jù)試驗得來的信息,此人是患者的概率為 P(AB)= 0.1066,說明這種試驗對于診斷一個人是否患有癌癥有意義.,從0.005增加到0.1066,將近增加約21倍.,1. 這種試驗對于診斷一個人是否患有癌癥 有無意義?,2. 檢出陽性是否一定患有癌癥?,試驗結果為陽性,此人確患癌癥的概率為 P(AB)=0.1066,即使你檢出陽性,尚可不必過早下結論你有癌癥,這種可能性只有10.66% (平均來說,1000個人中大約只有107人確患癌癥),此時醫(yī)生常要通過再試驗來確認.,下面我們再回過頭來看一下貝葉斯公式,貝葉斯公式,在貝葉斯公式中,P(Ai)和P(Ai |B)分別稱為 原因的先驗概率和后驗概率.,P(Ai)(i=1,2,n)是在沒有進一步信息(不知道事件B是否發(fā)生)的情況下,人們對諸事件發(fā)生可能性大小的認識.,當有了新的信息(知道B發(fā)生),人們對諸事件發(fā)生可能性大小P(Ai | B)有了新的估計.,例 某醫(yī)院對某種疾病有一種看起來很有效的檢驗方法,97%的患者檢驗結果為陽性,95%的未患病者檢驗結果為陰性,設該病的發(fā)病率為0.4%現(xiàn)有某人的檢驗結果為陽性,問他確實患病的概率是多少?,得到,由貝葉斯公式得,解 記B為檢驗結果是陽性,則 為檢驗結果是陰性,A表示患有該病,則 為未患該病由題意,(1) 條件概率,全概率公式,貝葉斯公式,小結,乘法定理,第二節(jié) 概率分布,2.2.1 隨機變量 2.2.2 離散型概率分布 2.2.3 連續(xù)型概率分布 2.2.4 概率分布與頻數(shù)分布的關系,概率分布及其特征,具有多種可能結果的現(xiàn)象稱為隨機現(xiàn)象,隨機現(xiàn)象的每一可能結果即是一個隨機事件,換句話說,隨機變量的每一可能取值都是一個隨機事件。 概率是度量隨機事件出現(xiàn)或發(fā)生的可能性大小的一種尺度。 概率分布由隨機變量的取值(x)及其相應的P(x)概率構成。,2.2.1 隨機變量,根據(jù)概率不同而取不同數(shù)值的變量稱為隨機變量(Random Variable)。 注意: (1)一個隨機變量具有下列特性:RV可以取許多不同的數(shù)值,取這些數(shù)值的概率為p,p滿足:0p1。 (2)隨機變量以一定的概率取到各種可能值,按其取值情況隨機變量可分為兩類:離散型隨機變量和連續(xù)型隨機變量。離散型隨機變量的取值最多可列多個;連續(xù)型隨機變量的取值充滿整個數(shù)軸或者某個區(qū)間。 (3)本書中,隨機變量用x、y、等符號表示,直觀上看,所謂隨機變量,就是我們在隨機實驗中測定的量。例如觀察10只新生動物的性別,并計算其中雄性動物的數(shù)量X,顯然X可能取值為0,1,10;但究竟取值為幾,只能在實驗結束時才知道。象這樣在實驗中所得到的取值有隨機性的量,就稱為隨機變量。隨機變量的特點就是當實驗條件一定時,實驗結果仍不確定。,2.2.1 隨機變量,上面所舉的例子是離散型的隨機變量,因為它只有有限個或可列個可能的取值。另外還有一大類隨機變量,它們的取值是在某個區(qū)間中連續(xù)變化的,例如人的身高,體重,胸圍象這樣的隨機變量稱為連續(xù)型隨機變量。,2.2.1 隨機變量,離散型隨機變量與連續(xù)型隨機變量,10 20 30 40 50,1.0,概率,概率,x,x,1.0,離散型隨機變量,連續(xù)型隨機變量,隨機變量的取值是有隨機性的,我們事先無法知道,但它的取值也是有規(guī)律性可循的,這種規(guī)律性就表現(xiàn)在各個值出現(xiàn)的頻率上。,隨機變量函數(shù)的概念和分布,P(X=x)=p(x); P稱為概率函數(shù) 顯然概率函數(shù)應滿足:對任意可能結果x,有 p(x)0, 且,對于連續(xù)型隨機變量來說,它的可能取值是不可列的,實際上它取到某一個確定值的可能性都為0,稱f(x)為隨機變量X的密度函數(shù),顯然應有f(x)0,,隨機變量函數(shù)的概念和分布,隨機變量函數(shù)的概念和分布,按隨機變量取值的特點,概率分布可分為離散型隨機變量的概率分布和連續(xù)型隨機變量的概率分布。,設X為一隨機變量,稱函數(shù) F(x) = P(Xx) (-x+)為X的分布函數(shù)。 這個定義適用于離散型隨機變量,也適用于連續(xù)型隨機變量。 連續(xù)型分布函數(shù)也可表示為密度函數(shù)的積分:,顯然有:,隨機變量函數(shù)的概念和分布,2.2.2 離散型概率分布,P(X=xi) = p(xi), i=1,2,3, p(xi), i=1,2,3,稱為隨機變量X的概率分布,通常用下面的形式表示離散型隨機變量X的概率分布:,分布函數(shù)為: F(x)=P(Xx)=,2.2.3 連續(xù)型概率分布,連續(xù)型隨機變量X可取某個區(qū)間c, d或(,)中的一切值,且存在可積函數(shù)f (x),使 , f(x) 稱為X的密度函數(shù),F(xiàn)(x) 稱為X的分布函數(shù)。顯然,頻率與概率都是一個居于0和1之間的數(shù)。 頻率是相對于樣本而言,而概率則是相對于總體而言。因此可以說概率是頻率的理論值,頻率是概率的試驗值或估計值。 頻率分布是一種觀察分布,而概率分布則是一種理論分布。,2.2.4 概率分布與頻數(shù)分布的關系,2.2.4 概率分布與頻數(shù)分布的關系,設(x1,x2,xn)為一組樣本觀察值,函數(shù)f( x1,x2,xn )若不含有未知參數(shù),則稱為統(tǒng)計量。 統(tǒng)計量一般是連續(xù)函數(shù)。由于樣本是隨機變量,因而它的函數(shù)也是隨機變量,所以,統(tǒng)計量也是隨機變量。 統(tǒng)計量一般用它來提取或壓榨由樣本帶來的總體信息。,2.2.4 概率分布與頻數(shù)分布的關系,總體的數(shù)字特征是一個固定不變的數(shù),稱為參數(shù); 樣本的數(shù)字特征是隨抽樣而變化的數(shù),是一個隨機變量,稱為統(tǒng)計量。,第三節(jié) 總體特征數(shù),一、數(shù)學期望 二、方差 三、數(shù)學期望與方差的圖示,研究數(shù)字特征的必要性 兩個最重要的數(shù)字特征 (1)數(shù)學期望 (2)方差,一、數(shù)學期望,研究數(shù)字特征的必要性,總體就是一個隨機變量。對總體的描述就是對隨機變量的描述。隨機變量的分布就是對隨機變量最完整的描述。但是, (1)求出總體的分布往往不是一件容易的事情; (2)而且,在很多情況下,我們并不需要全面考察隨機變量的變化情況,只需要了解總體的一些綜合指標。一般說來,常常需要了解總體的一般水平和它的離散程度; (3)如果了解總體的一般水平和離散程度,就已經(jīng)對總體有了粗略的了解了; (4)在很多情況下,了解這兩個數(shù)字特征還是深入求出總體分布的基礎和關鍵。 由此看來,研究隨機變量的數(shù)字特征是十分必要的。,數(shù)學期望的定義,定義2.1離散型隨機變量數(shù)學期望的定義 假定有一個離散型隨機變量X有n個不同的可能取值x1,x2,xn,而p1,p2,pn是X取這些值相應的概率,則這個隨機變量X的數(shù)學期望定義如下: 數(shù)學期望描述的是隨機變量(總體)的一般水平。 定義2.2連續(xù)型隨機變量數(shù)學期望的定義,女兒期待父親釣多少魚回家?,數(shù)學期望是最容易發(fā)生的,因而是可以期待的。它反映數(shù)據(jù)集中的趨勢。,數(shù)學期望的性質,(1)如果a、b為常數(shù),則 E(aX+b)=aE(X)+b (2)如果X、Y為兩個隨機變量,則 E(X+Y)=E(X)+E(Y) (3)如果g(x)和f(x)分別為X的兩個函數(shù),則 Eg(X)+f(X)=Eg(X)+Ef(X) (4)如果X、Y是兩個獨立的隨機變量,則 E(X.Y)=E(X).E(Y),求離散型隨機變量數(shù)學期望舉例,
收藏
- 資源描述:
-
本門課程的學習要求,掌握生物統(tǒng)計學的基本原理和基本概念; 掌握科學地收集、整理和分析數(shù)據(jù)資料的基本知識與技能; 初步掌握設計實驗的基本方法,培養(yǎng)從事教學和科研工作的能力。,通過本課程的學習,緒論,一、生物統(tǒng)計學的概念 二、生物統(tǒng)計學的產(chǎn)生和發(fā)展 三、在生物學科研工作中的作用 四、學習生物統(tǒng)計學的方法,主要內(nèi)容,無處不在的統(tǒng)計,1980年6月,首屆國際紅樓夢研討會在美國召開,威斯康星華裔學者陳炳藻獨樹一幟,宣讀了題為從詞匯上的統(tǒng)計論紅樓夢作者的問題的博士論文。他從字、詞出現(xiàn)頻率入手,通過計算機進行統(tǒng)計、處理、分析,對紅樓夢后40回系高鶚所作這一流行看法提出異議,認為120回均系曹雪芹所作。 精確到小數(shù)點的愛情-統(tǒng)計學博士的求婚信,統(tǒng)計數(shù)字,大仲馬的作品多曲折感人,而大仲馬又多私生子,所以,取笑譏諷他的人,往往把他的 作品比作他的私生子。 最使他頭痛的是巴黎統(tǒng)計學會的秘書長李昂納,這人是大仲馬的朋友,每次舉統(tǒng)計數(shù)字的例子,總是說大仲馬的情婦和私生子有多少。 有一年該統(tǒng)計學會開年會,大仲馬估計,李昂納又要大放厥詞,說他的壞話了。于是他請求參加年會,獲得了批準,果然不出大仲馬所料,李昂納又舉他的情婦和私生子的例子。 李昂納報告完畢,請大仲馬致詞。一向不愿在大庭廣眾之下發(fā)表演講的大仲馬,這次卻破例登臺說:“所有統(tǒng)計數(shù)字都是撒謊的,包括有關本人的數(shù)字在內(nèi)?!甭牨姾逄么笮?。,數(shù)學家的幽默,統(tǒng)計學家調(diào)侃數(shù)學家:你們不是說若且,則嗎!那么想必你若喜歡一個女孩,那么這個女孩喜歡的男生你也喜歡吧? 數(shù)學家反問道:那么你把左手放到一鍋一百度的開水中,右手放到一鍋零度的冰水里想來也沒事吧!因為它們平均不過是五十度而已!”,由上可知,統(tǒng)計與數(shù)量有關,同時它已經(jīng)滲透到社會經(jīng)濟活動和科學研究的方方面面,統(tǒng)計無處不在。,案例,在一個水庫中養(yǎng)著許多魚,管理人員希望了解魚的大致數(shù)量,這就是一個實踐中的統(tǒng)計學問題。,由于魚不聽從指揮,會在各處自由游動的,因此,在進行統(tǒng)計時,必須創(chuàng)造性地提出解決方案。,一種解決方法,先從水庫的不同位置一共捕上來1000條魚,在每條魚的尾部作上一個標記,應當保證標記不會影響魚的自由游動。然后,將魚全部放回水庫。幾天后,從水庫中再捕上來1000條魚,檢查其中尾巴上有標記的魚的數(shù)量。假定在第二次捕上來的1000條魚中,有20條尾巴上做了標記,則可以推斷,水庫中魚的總數(shù)大致為:,1000(201000)5萬條。,統(tǒng)計(Statistics)的涵義,統(tǒng)計是人們認識客觀世界總體數(shù)量變動關系和變動規(guī)律的活動的總稱,是認識客觀世界的有力工具。 統(tǒng)計的研究對象的特點: (一)數(shù)量性。統(tǒng)計數(shù)據(jù)是客觀事物量的反映。 (二)總體性。統(tǒng)計的數(shù)量研究是對現(xiàn)象總體中各單位普遍存在的事實進行大量觀察和綜合分析。 (三)變異性??傮w各單位的特征表現(xiàn)存在著差異,而且這些差異并不是事先可以預知的。,概念:生物統(tǒng)計學是應用概率論和數(shù)理統(tǒng)計原理來研究生物界數(shù)量變異規(guī)律的一門科學。,實質:生物統(tǒng)計學從研究思路上看,它是以樣本來推斷總體的一門學科。,特點:1、概率性:研究手段是概率論以及建立在概率論基礎上的數(shù)理統(tǒng)計方法,更主要的是其結論是不確切的。 2、歸納性:生物統(tǒng)計學由樣本來推斷總體的研究思路是由特殊到一般的歸納過程。3、實踐性,生物統(tǒng)計學的概念,1894年,發(fā)表了一系列生物統(tǒng)計學的論文,奠定生物統(tǒng)計學的基礎(英國畢爾生)。 哥爾頓(Galton)在十九世紀末葉,應用統(tǒng)計方法研究人種特征與遺傳,創(chuàng)立了生物統(tǒng)計學。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,英國人達爾文的侄子弗朗西斯哥爾頓直到1883年才發(fā)明出“優(yōu)生學”這個詞。一開始,高爾頓的提議沒有博得積極的反應。很多人對他的人工控制生育的思想感到震驚。 人們對高爾頓的遺傳觀點也非常懷疑。再者,因為出身名門的孩子通常能比普通人受到更好的教育,所以怎么肯定他們的能力就是天生的呢?,生物統(tǒng)計學的產(chǎn)生和發(fā)展,后來,哥爾頓花了很多的精力,提出一種生物學上的統(tǒng)計技術,以直接回應最初出現(xiàn)的懷疑態(tài)度(Cowan, 1972b)。他更加詳細地表明,遺傳控制了人口的性質。他將統(tǒng)計學方法應用于變異的研究,這也為生物統(tǒng)計學派的研究道路奠定了基礎。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,后來,他的學生卡爾皮爾遜(KPearson)利用生物統(tǒng)計學來捍衛(wèi)達爾文主義??梢哉J為,皮爾遜定量技術的真實結構反映出他想為優(yōu)生學政策提供明確科學證據(jù)的欲望(Mack enzie, 1982)。在皮爾遜的學生RA費舍爾那里也發(fā)現(xiàn)同樣的觀點(Bennett, 1983; No rton, 1983)。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,1820年法國人Laplace及同時代的Gauss發(fā)現(xiàn)正態(tài)分布,卡爾皮爾遜在1906年繼續(xù)主持哥爾頓試驗室,他所提出的卡方(2)測驗在遺傳學上研究性狀分離時被廣泛應用。他的學生WSGosset所提出的值測驗法已成為當代生物統(tǒng)計工作的基本工具之一。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,我國在二十世紀三十年代就出版有實用生物統(tǒng)計學(王綬,1937年),并且成為必修課,在許多方面加以應用。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,生物統(tǒng)計學近年來發(fā)展甚速,從中又分支為生物統(tǒng)計遺傳學、生態(tài)統(tǒng)計學、毒理統(tǒng)計學等等。當前,由于電子計算機的普及,使運算技術出現(xiàn)新的躍進,原來十分繁瑣的計算變得十分簡單、迅速,而且更加精確。應用統(tǒng)計方法以及先進的試驗設計來進行分析、研究,在生物學的研究中將越來越顯得重要。,生物統(tǒng)計學的產(chǎn)生和發(fā)展,在生物學科研工作中的作用,生物學是一門實驗科學。不管你從事的是生物學的哪一個分枝,都不可能完全脫離實驗,只進行邏輯推理。而實驗所得到的結果幾乎無例外地都帶有或多或少的不確定性,即實驗誤差。在這種情況下不用統(tǒng)計學要想得到正確的結論是不可能的。,在生物學科研工作中的作用,可以毫不夸張地說,作為一個實驗科學工作者,離開了統(tǒng)計學就寸步難行。希望大家通過這門課程的學習,能夠掌握常用的統(tǒng)計方法,尤其是它們的條件,適用范圍、優(yōu)缺點等,從而能夠應用它們?nèi)ソ鉀Q實踐中遇到的問題。,生物統(tǒng)計學是運用數(shù)理統(tǒng)計的的原理和方法來分析和解釋生物界各種現(xiàn)象和試驗調(diào)查資料的一門科學。隨著生物學的不斷發(fā)展,生物統(tǒng)計學在水產(chǎn)養(yǎng)殖、水生生物、漁業(yè)資源及捕撈等水產(chǎn)學科領域已有廣泛應用。,在生物學科研工作中的作用,生物統(tǒng)計學在設計、質控、數(shù)據(jù)管理、統(tǒng)計分析、結果評價等各個環(huán)節(jié)均發(fā)揮了重要作用。,統(tǒng)計研究的基本環(huán)節(jié),統(tǒng)計設計,收集數(shù)據(jù),整理與分析,資料積累 開發(fā)應用,統(tǒng)計學理論與相關實質性學科理論,描述統(tǒng)計 推斷統(tǒng)計,統(tǒng)計調(diào)查、實驗,統(tǒng)計研究的全過程包括以下基本環(huán)節(jié):,(一)統(tǒng)計設計 根據(jù)所要研究問題的性質,在有關學科理論的指導下,制定統(tǒng)計指標、指標體系和統(tǒng)計分類,給出統(tǒng)一的定義、標準。同時提出收集、整理和分析數(shù)據(jù)的方案和工作進度等。搞好統(tǒng)計設計不僅要有統(tǒng)計學的一般理論和方法為指導,而且還要求設計者對所要研究的問題本身具有深刻的認識和相關的學科知識。 (二)收集數(shù)據(jù) 統(tǒng)計數(shù)據(jù)的收集有兩種基本方法。對于大多數(shù)自然科學和工程技術研究來說,有可能通過有控制的科學實驗去取得數(shù)據(jù),這時可以采用實驗法。對于社會經(jīng)濟現(xiàn)象來說,一般無法進行重復實驗,要取得有關數(shù)據(jù)就必須進行調(diào)查觀察。,(三)整理與分析 描述統(tǒng)計是指對采集的數(shù)據(jù)進行登記、審核、整理、歸類,在此基礎上進一步計算出各種能反映總體數(shù)量特征的綜合指標,并用圖表的形式表示經(jīng)過歸納分析而得到的各種有用的統(tǒng)計信息。 推斷統(tǒng)計是在對樣本數(shù)據(jù)進行描述的基礎上,利用一定的方法根據(jù)樣本數(shù)據(jù)去估計或檢驗總體的數(shù)量特征。推斷統(tǒng)計是現(xiàn)代統(tǒng)計學的主要內(nèi)容。 (四)統(tǒng)計資料的積累、開發(fā)與應用 對于已經(jīng)公布的統(tǒng)計資料需要加以積累,同時還可以進行進一步的加工,結合相關的實質性學科的理論知識去進行分析和利用。如何更好地將統(tǒng)計數(shù)據(jù)和統(tǒng)計方法應用于各自的研究領域是應用統(tǒng)計學研究的一個重要方面。,理解 統(tǒng)計思想,掌握 統(tǒng)計術語,熟悉 統(tǒng)計符號,記住 統(tǒng)計公式,使用 統(tǒng)計工具,學習生物統(tǒng)計學的方法,常用統(tǒng)計工具,計算器,統(tǒng)計數(shù)表,如二項分布表、泊松分布表、 標準正態(tài)分布表、 t分布表等,能完成函數(shù)功能(對數(shù)計算、乘高次方、開高次方等)和統(tǒng)計功能(計算平均數(shù)、標準差、變量值平方和等),統(tǒng)計軟件,如Excel、 SPSS、 SAS、TSP( 時間序列數(shù)據(jù)軟件 )等,第一章 統(tǒng)計資料的收集與整理,1.1 總體與樣本 1.2 數(shù)據(jù)類型及頻數(shù)(率)分布 1.3 樣本的幾個特征數(shù),總體(集合)和個體(構成集合的元素),根據(jù)研究目的確定的、符合指定條件的全部觀察對象稱為總體。一般用希臘字母表示總體數(shù)值,如,等。 注意:,(2)總體具有同質性:每個個體具有共同的觀察特征,而與其它總體相區(qū)別;,(1)按組成總體個體的多寡分為:有限總體和無限總體;,注意,統(tǒng)計總體的種類,指所包含的單位數(shù)目有限的總體,指所包含的單位數(shù)目無限的總體,樣本和樣本容量,總體中抽出若干個個體組成的集體稱為樣本。一般用拉丁字母表示樣本數(shù)值,如、等。 樣本中包含的個體的個數(shù)稱為樣本的容量,又稱為樣本的大小。通常用表示。一般以樣本含量少于30者為小樣本,大于30者為大樣本。 注意:抽樣是按隨機原則選取的,即總體中每個個體有同樣的機會被選入樣本。,樣本與總體之間的關系,樣本是總體的一部分,是對總體隨機抽樣后得到的集合。 對觀察者而言,總體是不了解的,了解的只是樣本的具體情況。我們所要做的就是通過對這些具體樣本的情況的研究,來推知整個總體的情況。,Xn+1,Xn,X1,Xn+1,Xn,X1,樣本,總體,總體單位,調(diào)查單位,統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,普 查,統(tǒng)計調(diào)查的組織方式,對全部單位進行調(diào)查,總體單位,調(diào)查單位,重點調(diào)查,只調(diào)查重點單位(單位數(shù)不多但其標志量占標志總量比重較大的單位),統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,抽樣調(diào)查,按隨機原則選擇調(diào)查單位,各單位被選中的機會相同。,統(tǒng)計調(diào)查的組織方式,總體單位,調(diào)查單位,典型調(diào)查,對典型單位進行調(diào)查,典型單位的選擇并不一定按規(guī)模,統(tǒng)計調(diào)查的組織方式,按照 隨機原則 從調(diào)查對象中抽取一部分樣本單位進行調(diào)查,再用樣本資料推斷把握總體的數(shù)量特征的一種非全面調(diào)查組織方式,抽樣,指樣本單位的抽取不受主觀因素及其他系統(tǒng)性因素的影響,每個總體單位都有均等的被抽中機會,特 點,優(yōu) 點,1.2 數(shù)據(jù)類型及頻數(shù)(率)分布,一、資料類型 二、資料搜集與整理 三、頻數(shù)(率)分布常用統(tǒng)計圖(表),資料的分類,正確地進行資料的分類是資料整理、分析的前提。通過試驗或調(diào)查所獲得的資料一般可以分為三大類:,一、數(shù)量性狀資料 (data of quantitative characteristics) 二、質量性狀資料 (data of qualitative characteristics) 三、半定量(等級)資料 (semi-quantitative or ranked data),資料的分類,一、數(shù)量性狀資料,(一)概念 數(shù)量性狀是指能夠以測量、稱量或計數(shù)的方法表示其特征的性狀。 觀察測定數(shù)量性狀而獲得的數(shù)據(jù)就是數(shù)量性狀資料。,(二)分類 數(shù)量性狀資料的記載有量測和計數(shù)兩種方式,因而數(shù)量性狀又分為計量資料和計數(shù)資料兩種。,一、數(shù)量性狀資料,(二)分類 1.計量資料:指用量測手段得到的數(shù)量資料。 這種資料的各個觀察值不一定是整數(shù),兩個相鄰的整數(shù)間可以有帶小數(shù)的任何數(shù)值出現(xiàn),其小數(shù)值的多少由度量工具的精度而定,它們之間的變異是連續(xù)性的。因此亦稱為連續(xù)性變異資料。 例如身高、產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標等屬于連續(xù)性數(shù)量性狀資料。,一、數(shù)量性狀資料,連續(xù)型資料,在一個區(qū)間內(nèi)可以連續(xù)不斷取值的資料,人的身高、牲畜產(chǎn)奶量、綿羊剪毛量、血液的生理生化指標等,需要使用度量工具取值,身高的例子:,(二)分類 2計數(shù)資料:指用計數(shù)方式得到的數(shù)量資料。 它的各個觀察值只能以整數(shù)表示,兩個相鄰整數(shù)不得有任何帶小數(shù)的數(shù)值出現(xiàn)。因此,該類資料也稱不連續(xù)性變異資料或間斷(離散)性變異資料。 如豬的產(chǎn)仔數(shù)、雞的產(chǎn)蛋數(shù)、魚的尾數(shù)、寄生蟲蟲卵數(shù)等。,一、數(shù)量性狀資料,離散型資料,其一切可能取值都以整數(shù)形式出現(xiàn),并可以一一列舉的資料,特定范圍的人口數(shù)、林木株數(shù)、畜禽數(shù)量等等,取值不需要用工具度量,用計數(shù)的方式即可,二、質量性狀資料,(一)概念和特點 質量性狀是指只能觀察而不能測量的性狀。 這類性狀本身不能直接用數(shù)值表示,要獲得這類性狀的數(shù)據(jù)資料,須對其觀察結果作數(shù)量化處理。,(二)質量性狀數(shù)量化的方法 1、統(tǒng)計次數(shù)法 質量性狀數(shù)量化常采用統(tǒng)計次數(shù)法,所謂統(tǒng)計次數(shù)法是指在一定的總體或樣本中,根據(jù)某一質量性狀的類別統(tǒng)計其個體數(shù)。這種由質量性狀數(shù)量化得來的資料又叫次數(shù)資料。,二、質量性狀資料,(二)質量性狀數(shù)量化的方法 . 評分法:對某一質量性狀,因其類別不同分別給予評分以便統(tǒng)計分析。例如研究綿羊的油汗色澤遺傳時,可將種油汗色澤分別給予不同的分數(shù):深黃分、黃色分、淺黃分、乳白分、白色分。,二、質量性狀資料,三、半定量(等級)資料,(一)概念 半定量或等級資料是指將觀察單位按所考察的性狀或指標的等級順序分組(三組以上),然后清點各組觀察單位的次數(shù)而得的資料。,(二)特點 這類資料既有次數(shù)資料的特點,又有程度或量的不同。 如糞便潛血試驗的陽性反應是在涂有糞便的棉簽上加試劑后觀察顏色出現(xiàn)的快慢及深淺程度分為六個等級;又如用某種藥物治療畜禽的某種疾病,療效分為“無效”、“好轉”、“顯效”和“控制”四個級別;然后統(tǒng)計各級別的供試畜禽數(shù)。半定量資料在獸醫(yī)研究中是常見的。,三、半定量(等級)資料,資料搜集與整理,統(tǒng)計工作一般分為三個步驟:收集資料、整理資料和分析資料。 搜集資料(數(shù)據(jù))是進行統(tǒng)計工作的第一步也是最重要的一步。如果搜集數(shù)據(jù)的計劃不周密,原始記錄不正確,往往會造成整理、分析的困難,甚至得出錯誤的結論,而這些缺點難以在以后的兩個步驟中補救的。,在搜集資料時,應注意如下幾點:,. 要有目的性 . 要有代表性 . 樣本含量要恰當,資料整理的內(nèi)容,在調(diào)查或試驗中所得到的大量數(shù)據(jù)是分散的數(shù)據(jù)。要了解事物總的特征和發(fā)展情況,必須對這些數(shù)據(jù)進行科學的分組歸納,使數(shù)據(jù)系統(tǒng)化,便于進一步統(tǒng)計分析以及反映被研究事物的規(guī)律性,這個過程稱為數(shù)據(jù)的整理。,通常我們用X表示變量,原始資料的檢查與核對 資料的整理 依次表(小樣本) 計數(shù)資料的整理與分組 (采用樣本數(shù)據(jù)的自然值進行分組 ) 計量資料的整理與分組 (組距式分組法 ) 質量性狀資料、半定量(等級)資料的整理,資料整理的內(nèi)容,獲得的資料在未整理之前,稱為原始資料。對原始資料可從以下兩個方面進行檢查: 1資料的完整性 原始記錄有無遺漏或重復 2資料的正確性 原始數(shù)據(jù)是否正確、合理,有無矛盾,特別注意特大或特小數(shù)據(jù)及異常數(shù)據(jù)。,一、資料的檢查與核對,二、資料的整理,(一)計數(shù)資料的整理 (二)計量資料的整理 (三)質量性狀資料、半定量(等級)資料)的整理,對原始資料進行檢查核對后,根據(jù)資料中觀察值的多少確定是否分組。 1.當觀察值不多,變異范圍不大時,不必分組,直接進行統(tǒng)計分析。(依次表) 2.當觀察值較多,變異范圍較大時,須將觀察值分成若干組,以便統(tǒng)計分析。 將觀察值分組歸類制成次數(shù)分布表(“唱票式”) 看出資料的集中和變異情況。,(一)計數(shù)資料的整理,依次表、分組,當數(shù)據(jù)不多時可不必分組,這時可將變數(shù)按數(shù)值大小依次排列起來,形成一個由小到大的數(shù)字表,稱為“依次表” 。 當數(shù)據(jù)較多時,如30個變數(shù)以上的大樣本,制成“依次表”則較麻煩,這時需要將數(shù)據(jù)分成若干組,以便統(tǒng)計分析。,表1-1 10只大白鼠的繁殖力 單位:只,例如,表1-1為10只大白鼠繁殖力的記錄,在未加整理以前只是一堆數(shù)字,看不出資料的任何意義。,依次表,如將表1-1整理成依次表(表1-2),可以看出10只大白鼠中繁殖力變異的情況,即產(chǎn)仔數(shù)最高為8只,最低為3只,變異范圍為3-8只。,依次表,大白鼠編號,產(chǎn) 仔 數(shù),8 3 5 10 1 4 7 2 9 6,3 4 5 5 6 6 6 7 7 8,表1-2 10只大白鼠的繁殖力依次表 單位:只,表1-3 50只小雞的出殼天數(shù),從上表可以看出,小雞出殼天數(shù)在19-24之間變動,用觀察值各個不同值進行分組。,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,(二)計量資料的整理 -組距式分組法,求全距 全距是數(shù)據(jù)內(nèi)變量最大值與最小值之差,它是整個樣本的變異幅度。 確定組數(shù) 組數(shù)的決定可用經(jīng)驗分組法,它與樣本的個體數(shù)有關。 確定組距 每一組內(nèi)變量的范圍跨度稱為組距。組距=全距/組數(shù) 確定組中值及組限 數(shù)據(jù)歸組(以唱票的方式),表1-5 按樣本含量決定組數(shù),返回,組距式分組將要使用的相關概念,總的變異范圍。簡稱全距(或極差),用R 來表示。,變異全距,變異全距的計算公式:,相關概念,“以上”組距數(shù)列的上限值“以下”組距數(shù)列的下限值。,假定上限假定下限,開口式組距數(shù)列組中值的計算:,首組假定下限首組上限相鄰組組距 末組假定上限末組下限相鄰組組距,先計算開口組的假定上、下限:,因此有:,以某純系蛋雞200枚蛋重資料為例說明其整理的基本步驟和方法: 1、求全距R。 資料中,最大值為62.1g,最小值為45.3g, 則全距為62.1-45.3=16.8g 2、確定組數(shù)K。組數(shù)要適當,一般以達到既簡化資料又不影響反映資料的規(guī)律性為原則。具體可參照表1-5.本例n=200,初步確定組數(shù)為11組。,某純系蛋雞200枚蛋重 單位:g,3、確定組距i。每組最大值與最小值之差稱為組距,記為i。 本例 4、確定組限及組中值。各組的最大值與最小值稱為組限,最小值為下限,最大值為上限。組中值是該組的代表值。 第一組的組中值以接近或等于資料中的最小值為好。本例第一組的組中值取45.0(最小值45.3),則第一組的下限,第一組上限為:44.25+1.5=45.75 (第二組下限) 第二組上限為:45.75+1.5=47.25 (第三組下限) 依次類推,第三組47.25; 第四組48.75;依次分組下去,直到資料中的最大值歸入最后一組為止。 但為了避免個別數(shù)據(jù)歸組的兩面性(假如資料中有一枚重為47.25g,是將其歸入第二組,還是歸入第三組呢?),通常將每組的上限略去不寫。如第一組44.25,第二組45.75,第三組47.25 ,。 5、歸組劃線計數(shù),作次數(shù)分布表(“唱票式”)和次數(shù)分布圖。,表1-6 某純系蛋雞200枚蛋重的次數(shù)分布表,孟德爾在研究分離規(guī)律時用純種圓滑和純種皺縮的豌豆的雜交子一代進行自交試驗,他記錄了10個植株所結種子的形態(tài),在原始記錄中,種子有兩種類型:圓滑、皺縮。 將原始記錄(443粒)按種子類型進行分組,(三)質量性狀資料、半定量 (等級)資料的整理,表1-7 10株子一代自交后分離情況,表1-8 10株子一代自交后分離情況,表1-9 10株子一代自交后分離情況,(三)質量性狀資料、半定量 (等級)資料的整理,可按性狀或等級進行分組,分別統(tǒng)計各組的次數(shù),然后制成次數(shù)分布表。 表1-10 子二代豬毛色分離情況,累計次數(shù)(頻率),從變量值低的組開始,將各組次數(shù)(頻率)逐次向變量值高的組累計,說明某一組上限以下各組的累計次數(shù)(頻率)。,從變量值高的組開始,將各組次數(shù)(頻率)逐次向變量值低的組累計,說明某一組下限以上各組的累計次數(shù)(頻率)。,某地區(qū)50個百貨商店月銷售額情況,某地區(qū)50個百貨商店月銷售額情況,某地區(qū)50個百貨商店月銷售額情況,常用統(tǒng)計表與統(tǒng)計圖,統(tǒng)計表是用表格形式來表示數(shù)量關系,使數(shù)據(jù)條理化、系統(tǒng)化,便于理解、分析和比較。 統(tǒng)計圖是用幾何圖形來表示數(shù)量關系,不同形狀的幾何圖形,可以將研究對象的特征、內(nèi)部構成、相互關系等形象直觀地表達出來,便于分析比較。,統(tǒng)計表,(一)統(tǒng)計表的結構和要求 統(tǒng)計表由標題、橫標目、縱標目、線條、數(shù)字及合計構成。 (二)統(tǒng)計表的種類 1. 簡單表 由一組橫標目和一組縱標目組成,縱橫標目都未分組。 2. 復合表 由兩組或兩組以上的橫標目與縱標目結合而成, 或一組橫標目與兩組或兩組以上的縱標目結合而成,或兩組或組以上的橫、縱標目結合而成。,表1-11 北京某點取暖期SO2濃度次數(shù)分布表,標題,橫標目,縱標目,數(shù)字,合計,Example,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,Example,標題,縱標目,數(shù)字,合計,出殼天數(shù) 劃線計數(shù) 次數(shù),19 20 21 22 23 24,表1-4 50只小雞出殼天數(shù)的次數(shù)分布表,合計,橫標目,一個圖只用來顯示一種現(xiàn)象的數(shù)量特征,統(tǒng)計圖,(一)統(tǒng)計圖繪制的基本要求 (二)常用統(tǒng)計圖及其繪制方法 1.條形圖 2.直方圖 3.圓形圖 4.線圖(折線圖) 5.散點圖 (特別是隨著計算機技術的發(fā)展,統(tǒng)計圖的種類越來越豐富),幾種常用的統(tǒng)計圖,幾種常用的統(tǒng)計圖,一、平均數(shù)(主要介紹算術平均數(shù)Arithmetic Mean) 二、標準差(Standard Deviation) 三、變異系數(shù) (Coefficient of Variability),1.3 樣本的幾個特征數(shù),次數(shù)分布表和次數(shù)分布圖,可以形象、直觀地表示出資料的兩個特征集中性和離散性。為了更簡單、精確地描述資料的特征,本節(jié)介紹三個統(tǒng)計量:平均數(shù)、標準差和變異系數(shù)。 平均數(shù)反應資料的集中性,標準差和變異系數(shù)反應資料的離散性。,平均數(shù)(Mean),平均數(shù)的意義: 平均數(shù)用來描述資料的集中性,即指出資料中數(shù)據(jù)集中較多的中心位置。,平均數(shù)的作用: 平均數(shù)是資料的代表數(shù); 常用于同類性質資料間的相互比較。 平均數(shù)的種類:其中應用最為普遍的是算術平均數(shù),此外還有幾何平均數(shù)、中數(shù)、眾數(shù)和調(diào)和平均數(shù) 。,平均數(shù)(Mean),算術平均數(shù) (Arithmetic Mean),(一)算術平均數(shù)的定義 資料中各觀察值的總和除以觀察值的個數(shù)所得的商,稱為算術平均數(shù)。在統(tǒng)計學中,簡稱為平均數(shù)或均數(shù)。用符號 表示。,算術平均數(shù) (Arithmetic Mean),(二)計算方法 1、直接法 對樣本含量較小,未分組的資料適用。,其中,(Sigma)為總和符號, 表示從第一個觀察值 x1 累加到第n個觀察值 xn ,若在意義上已明確時,簡記為 。,算術平均數(shù) (Arithmetic Mean),關于總和符號的幾個性質,常數(shù)的總和等于該常數(shù)的n倍,即 代數(shù)和的總和等于總和的代數(shù)和,即 總和符號內(nèi)的常數(shù)因子可以提取到總和符號之外,即,其中C為常數(shù);注意:在后面一些章節(jié)經(jīng)常會遇到C代表一個為常量的式子,(a為常數(shù)),2、加權法,適用于已分組的資料,各組的次數(shù) fi 是權衡各組中值 xi 在資料中所占比重大小的數(shù)量,因此f被稱為是x的“權”(right),加權法也由此而得名。,xi 各組組中值; fi 各組次數(shù); k 分組數(shù)。,(三)平均數(shù)的基本性質,1、樣本各個觀察值與平均數(shù)之差的和為零,即離均差之和為零; 2、樣本各觀察值與平均數(shù)之差的平方和為最小,即離均差的平方和最小。,3、統(tǒng)計學已證明,樣本平均數(shù) 是總體平均數(shù) 的無偏估計值。 對總體而言,用 表示平均數(shù)。 無偏估計:當一個統(tǒng)計量的數(shù)學期望值等于等于相應總體參數(shù)時,稱該統(tǒng)計量為其總體參數(shù)的無偏估計。,(三)平均數(shù)的基本性質,幾何平均數(shù) (Geometric Mean),(一)定義 指n個觀察值乘積的n次方根。即,幾何平均數(shù) (Geometric Mean),(二)適用條件 主要應用于數(shù)據(jù)呈倍數(shù)關系或不對稱分布的資料,算術平均數(shù)對這類資料的代表性差。如抗體效價(1:10,1:100,1:1000,1:10000)、增長率或生長率、動態(tài)發(fā)展速度等。,1、應用公式計算(實際應用時常取對數(shù)),例如,海蝦養(yǎng)殖試驗,各旬的生長速度3.0,1.5 1.3,1.2,1.2,1.1,1.1,求海蝦的旬平均生長速度。 ,即海蝦旬平均生長速度為1.38。,幾何平均數(shù) (Geometric Mean),2、當資料編成次數(shù)分布表時,,各組組中值; 各組次數(shù);,幾何平均數(shù) (Geometric Mean),xi,fi,標準差(Standard Deviation),平均數(shù)是資料的代表數(shù),其代表性強弱受資料中各觀察值變異程度的影響。僅利用平均數(shù)對一個資料的統(tǒng)計特征作全面描述是不夠的,還應引入一個能說明資料各觀察值變異程度大小的統(tǒng)計量。,用來表示資料變異程度的指標較多,常用的有極差、標準差、變異系數(shù)、方差等,其中以方差與標準差應用最為廣泛。,標準差(Standard Deviation),一、標準差的引入 全距(極差):只利用了資料中最大值和最小值,不能準確表達資料中各個觀察值的變異程度。,標準差(Standard Deviation),一、標準差的引入 離均差 可表達觀察值偏離平均數(shù)的程度和性質,但由于離均差之和為零,因此它不能表示整個資料中所有觀察值的總偏離程度。 若用 ,使用起來又不方便,在統(tǒng)計學中未被采用。,標準差(Standard Deviation),為消除離均差的負號,先將各離均差平方 ;再求離均差的平方之和(簡稱平方和,記為 SS) ,為消除樣本含量的影響以離均差的平方和除以自由度n-1。 則統(tǒng)計量 稱為均方(縮寫為MS),又稱為樣本方差,記為S2 ,即:,標準差(Standard Deviation),它不能表示整個資料中所有觀察值的總偏離程度,使用不方便,在統(tǒng)計學中未被采用,消除離均差的負號,離均差的平方之和(簡稱平方和,記為SS),稱為均方(縮寫為MS),又稱為樣本方差,記為S2,標準差,相應總體參數(shù)叫總體方差,記為2 由于樣本方差帶有原度量單位的平方單位,為將單位還原,即求樣本方差的平方根。在統(tǒng)計學上,樣本方差S2的平方根叫做標準差,記為S。 相應總體參數(shù)叫總體標準差(),對于有限總體,,(一)直接法,(二)加權法,標準差(Standard Deviation),二、標準差的計算,變異系數(shù) (Coefficient of Variation),一、變異系數(shù)的引入 變異系數(shù)是標準差相對于平均數(shù)的百分數(shù),記為CV。 變異系數(shù)同標準差一樣是衡量資料變異程度的統(tǒng)計量。變異系數(shù)消除了不同單位和平均數(shù)的影響,可以用來比較不同資料的相對變異程度。,變異系數(shù) (Coefficient of Variation),二、計算公式,三、特點和作用 (一)變異系數(shù)是一個無單位的相對數(shù),用表示; (二)變異系數(shù)同時受到平均數(shù)和標準差的影響,因此,在利用變異系數(shù)來表示資料的變異程度時,最好將平均數(shù)和標準差也列出。,變異系數(shù) (Coefficient of Variation),三、特點和作用 (三)變異系數(shù)不受單位不同或平均數(shù)不同的影響,對于單位不同和平均數(shù)不同的資料,都可以用變異系數(shù)來比較其變異程度。,變異系數(shù) (Coefficient of Variation),三匹馬的體重:200 Kg、201 Kg、202 Kg 三只螞蟻的體重:500 mg、1000 mg、1500 mg,案例,S1=0.816 Kg S2=0.40825 g,變異系數(shù) (Coefficient of Variation), S1 S2 馬的體重的離散程度(變異程度)大于螞蟻的體重變異?,不能。其實三匹馬的體重相差不大;而螞蟻之間體重是有很大差別的。原因在于基數(shù)不同,這時不能直接用S比較。,變異系數(shù) (Coefficient of Variation),上例:,=0.816/201=0.0041,=408.25/1000=0.40825,CV1CV2 螞蟻的體重變異程度大于馬的體重的變異程度,變異系數(shù) (Coefficient of Variation),作業(yè)17/9,p18 1.2 1.12,計數(shù)資料的整理與分組基本是采用樣本變數(shù)的自然值進行分組,每組均用一個變數(shù)值來表示。分組時可將資料中每個變數(shù)分別歸入相應的組內(nèi),然后制成次數(shù)分布表。 例如,40只大白鼠的產(chǎn)仔數(shù)如下表所示,計數(shù)資料的整理與分組,分組,計數(shù)資料的整理與分組,分組,表1-12 40只大白鼠的產(chǎn)仔數(shù) 單位:只,產(chǎn) 仔 數(shù),3 4 5 6 7 8,表1-13 40只大白鼠繁殖力的次數(shù)分布表 單位:只,大白鼠數(shù),5 3 9 11 9 3,合計,40,計量資料的整理與分組,計量資料的整理與分組是采用組距式分組法。在分組前先確定全距、組數(shù)、組距、組中值、組限等,然后將各變數(shù)的值分別歸入相應的組內(nèi)。,分組,表1-14 100株橡膠樹膠乳產(chǎn)量表 (單位:毫升/株次),26,133,2、確定組數(shù),編制步驟:,【解】,1、求全距,取K= 10組,樣本個體數(shù)是100,查表1-5,可分為10組,本例中,k=10,則有,3、確定組距I:,確定組中值及組限,I=R/K=107/10=10.7,為分組方便起見,可以11作為組距,第一組的下限不能大于資料的最小值,而末一組的上限不能小于資料的最大值,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,編制次數(shù)表,數(shù)據(jù)歸組,表1-15 100株橡膠樹膠乳產(chǎn)量次數(shù)分布表 (單位:毫升/株次),第一節(jié) 概率的基本概念,一、隨機現(xiàn)象與隨機事件 二、概率的統(tǒng)計定義 三、概率的古典定義 四、概率的一般運算,第二章 概率和概率分布,一、隨機現(xiàn)象與隨機事件,隨機現(xiàn)象與必然現(xiàn)象 事件 事件間的關系 事件的運算,隨機事件,在客觀世界中,不斷地出現(xiàn)和發(fā)生一些事物和現(xiàn)象。這些事物和現(xiàn)象可以統(tǒng)稱為事件。時間的發(fā)生有一定的條件。 經(jīng)分析,就因果關系來看,有一類事件是在一定的條件下必然發(fā)生的(如水到0會結冰,一年會有四個季節(jié))。這種在一定的條件下必然發(fā)生的事件稱為必然事件。 另有一類事件在一定的條件下是必然不發(fā)生的(如石頭不能孵化成小雞,太陽不會從西邊出來)。這種在一定的條件下必然不發(fā)生的事件稱為不可能事件。,隨機事件,必然事件或不可能事件雖然不同,但又具有共性,即在因果關系上都具有確定性。 除了必然事件和不可能事件以外,在客觀世界中還有另外一類事件,這類事件發(fā)生的條件和事件的發(fā)生與否之間沒有確定的因果關系。這種發(fā)生的條件和發(fā)生與否之間沒有確定的因果關系的事件稱為隨機事件。,隨機事件,在長期的實踐中人們發(fā)現(xiàn),雖然對隨機事件作一兩次或少數(shù)幾次觀察,隨機事件的發(fā)生與否沒有什么規(guī)律,但如果進行大量的觀察或試驗,又可以發(fā)現(xiàn)隨機事件具有一定的規(guī)律性。,隨機事件,比如一枚硬幣,投擲一次或幾次的時候看不出什么規(guī)律,但是在同樣的條件下反復多次進行試驗,把硬幣投擲成千上萬次,就會發(fā)現(xiàn)硬幣落地時正面朝上和反面朝上的次數(shù)大致是相等的。,隨機現(xiàn)象與必然現(xiàn)象,所謂隨機現(xiàn)象,就是在基本條件不變的情況下,各次實驗或觀察會得到不同的結果的現(xiàn)象,而且這一結果是不能準確預料的。 例:血球計數(shù),昆蟲密度調(diào)查,某一時刻車間中開動的車床數(shù),優(yōu)秀選手射擊彈著分布,抽樣時某一樣品合格與否等等。,隨機現(xiàn)象與必然現(xiàn)象,必然現(xiàn)象則是指在一定條件下必然會發(fā)生的現(xiàn)象。 例:早晨太陽從東方升起,水向低處流,萬有引力,標準大氣壓,純水100沸騰等等。,事件,隨機事件 樣本空間(定義:在一組固定的條件下所進行的試驗或觀察, 其可能出現(xiàn)的結果稱為樣本點,一般用表示。全體樣本點的所構成的集合稱為樣本空間,一般用表示。 ) 基本事件 必然事件 不可能事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,是雄性的情況:,0只,1只,2只,基本事件,基本事件,基本事件,事件,至少1只雄性的情況:,1只,2只,基本事件,基本事件,事件,例:有10只小白鼠,其中雌雄各半?,F(xiàn)從中抽取兩只(放回式抽樣):則有,事件,包括02只雄性的情況:,必然事件,包括3只雄性的情況:,不可能事件,事件間關系,設A、B均為事件,則它們可能有以下關系: 包含事件:若A發(fā)生,則B必然發(fā)生,此時稱A包含于B,或B包含A。記為:A B,或B A。 例:正正 兩幣相同 相等事件:若A B,且B A,則稱A與B相等,記為A=B。 例:反反=正面不出現(xiàn) 對立事件:由所有不包含在A中的樣本點所組成的事件稱為A的逆事件,或A的對立事件,記為 。(也可稱為“非A”) 例: =正反,反正=兩幣不同,Venn圖:用圖解的方法表示集合間的關系。如:,A,B,相離 相交 包含,事件間關系,事件的運算,事件的和 事件的交 互不相容事件,已知事件A,B,我們可以通過它們構成一些新的事件: 交:同時屬于A及B的樣本點的集合。記為:AB或AB,此時A與B同時發(fā)生。 和(并):至少屬于A或B中一個的全體樣本點的集合,記為AB。此時可能A,B都發(fā)生,也可能只發(fā)生一個。 互不相容:若AB=,則稱A與B互不相容。樣本點一定是互不相容的。,事件的運算,事件的運算,運算規(guī)律: (1)交換律:AB=BA,AB=BA (2)結合律: (AB)C=A(BC) (AB)C=A(BC) (3)分配律: (AB)C=(AC)(BC) (AB)C=(AC)(BC),事件的運算,例:A、B、C是三個事件,請用運算式表示下列事件: (1)A發(fā)生,B與C不發(fā)生: (2)A與B都發(fā)生而C不發(fā)生: (3)至少發(fā)生一個: (4)恰好發(fā)生一個: (5)恰好發(fā)生二個:,事件的運算,例:A、B、C是三個事件,請用運算式表示下列事件: (1) (2) (3)A B C (4) (5),事件的運算,概率,在數(shù)學中有兩個分支,即概率論和數(shù)理統(tǒng)計。研究隨機事件統(tǒng)計規(guī)律的學科稱為概率論。由隨機現(xiàn)象的一部分實測資料研究和推求隨機事件全體的規(guī)律的學科稱為數(shù)理統(tǒng)計。 概率是表示統(tǒng)計規(guī)律的方式。用概率可以表示和度量在一定條件下隨機事件出現(xiàn)或發(fā)生的可能性。 針對不同的情況,概率有不同的定義。 按照數(shù)理統(tǒng)計的觀點,事物和現(xiàn)象都可以看為是試驗的結果。,二、概率的統(tǒng)計定義,概率的統(tǒng)計定義如下:在一組不變的條件下,重復作k次試驗,記l是事件A發(fā)生的次數(shù),當試驗次數(shù)很大時,如果頻率l/k穩(wěn)定地在某一數(shù)值p的附近擺動,而且一般說來隨著試驗次數(shù)的增多,這種擺動的幅度愈變愈小,則稱A為隨機事件,并稱數(shù)值p為隨機事件A的概率,記作P(A)= p,二、概率的統(tǒng)計定義,1、不恒定性:k, l, 2、穩(wěn)定性:P= 概率 3、性質:p23,三、概率的古典定義,從17世紀中葉,人們就開始研究隨機現(xiàn)象,當時這種興趣或需要主要是由賭博引起的,因此人們首先注意的是這樣一類隨機事件:它們只有有限個可能的結果,即只有有限個樣本點,同時這些樣本點出現(xiàn)的可能性相等。這樣的概率空間稱為古典概型。由于樣本點是等可能的,很自然地,人們就把事件A的概率定義為A所包含的樣本點數(shù)與樣本點總數(shù)的比值,即,例:五個身高不同的人,隨機站成一排,問恰好是按身高順序排列的可能性有多大?,三、概率的古典定義,解:五個人隨機排列,則排法共有5!種。有利場合則為從高到矮,或從矮到高,共兩種。因此所求概率為:,例:有一組小白鼠共20只,其中8只雄,12雌?,F(xiàn)從中任取5只,問其中有2只是雄,3只是雌的概率是多少?,四、概率的一般運算,解:,四、概率的一般運算,概率加法 條件概率 乘法公式 獨立事件 貝葉斯(Bayes)公式(或稱逆概公式),四、概率的一般運算,概率加法 定理:對任意事件A、B, P(AUB)= P(A)+P(B)P(AB),四、概率的一般運算,概率加法 例:在人口調(diào)查中發(fā)現(xiàn),10歲以下人口(A1)占該地區(qū)人口的30%,1120歲(A2)占20%;2130歲(A3)占20%; 3140歲(A4)占10%;4150歲(A5)占10%;51歲以上(A6)占10%。問任意抽取1人,他是20歲以下的概率是多少?,解:事件A1A6是互不相容事件,故 P(A1A2)= P(A1)+P(A2) =0.30+0.20=0.50,四、概率的一般運算,條件概率 定義:若A,B為兩個事件, 且P(B)0,則記,稱為事件B發(fā)生的條件下事件A發(fā)生的概率。,四、概率的一般運算,條件概率 假定男女孩出生率相同,設A為二個孩子家庭有一男孩一女孩這一事件,求P(A)。,解:顯然=(男男),(男女),(女男),(女女) ,四、概率的一般運算,條件概率 這里要特別注意的是不能認為樣本空間只有如下三個樣本點:(兩男),(兩女),(一男一女)。上述三個樣本點不是等可能的。這是因為對(兩男)與(兩女)來說,沒有順序問題,交換順序后仍是兩男或兩女;但對一男一女來說就不同了,它實際上是由兄妹與姐弟兩個樣本點組成。因此只有采用(兄弟),(兄妹),(姐弟),(姐妹)四個樣本點才能構成古典概型的樣本空間,只有這樣才能保證等可能性,而等可能性正是古典概型計算公式的基礎。,四、概率的一般運算,條件概率 若已知該家庭至少有一女孩,則有一男一女的概率為多大?,解:設B為至少有一女孩,當B發(fā)生時,樣本點只剩三個:(男女),(女男),(女女)。,四、概率的一般運算,乘法公式 乘法定理:,四、概率的一般運算,乘法公式 例:從一副撲克牌中連續(xù)抽取2張,問2張都是紅方塊的概率是多少?,事件B為第二張是紅方塊,P(B/A)= =,=,四、概率的一般運算,獨立事件 對任意事件A和B,若P(AB)=P(A)P(B), 則稱A,B是獨立的。 B的發(fā)生對A沒有任何影響,也沒有提供任何消息,反之也一樣。,四、概率的一般運算,獨立事件 例:在某地區(qū)中學生中,女生占40%,患近視眼的占5%。從該地區(qū)學生中任取一人,則求其既是女生又是患近視眼的P。,解:A女生;B近視;A、B是獨立事件 P(AB)=P(A)P(B)=0.40.05=0.02,5)貝葉斯公式,設A1,A2,An是兩兩互斥的事件,且P(Ai)0,i=1,2,n, 另有一事件B,它總是與A1,A2,An 之一同時發(fā)生,則,貝葉斯,Thomas Bayes,該公式于1763年由貝葉斯(Bayes)給出. 它是在觀察到事件B已發(fā)生的條件下,尋找導致B發(fā)生的每個原因的概率.,貝葉斯公式有著十分廣泛的用途,它之所以被稱為逆概公式,是因為它實際是在知道結果的情況下來推斷原因:A1,A2,An,是可能導致B出現(xiàn)的原因。P(Ai)是各種原因出現(xiàn)的可能性大小,一般是過去經(jīng)驗的總結,稱為先驗概率。若現(xiàn)在已知B出現(xiàn)了,我們要求它是由哪個原因引起的概率,這就是 ,稱為后驗概率。它反映了試驗之后對原因發(fā)生可能性大小的新知識。例如醫(yī)生診斷病人所患何病(A1,A2,An,中的某一個),他確定某種癥狀B(如體溫,某種化驗指標等等)出現(xiàn),現(xiàn)在實際就是求 ,通過比較它們的大小就可對疾病作出診斷。此時貝葉斯公式顯然是很有用的。,貝葉斯公式在實際中有很多應用,它可以幫助人們確定某結果(事件 B)發(fā)生的最可能原因.,例 某一地區(qū)患有癌癥的人占0.005,患者對一種試驗反應是陽性的概率為0.95,正常人對這種試驗反應是陽性的概率為0.04,現(xiàn)抽查了一個人,試驗反應是陽性,問此人是癌癥患者的概率有多大?,則 表示“抽查的人不患癌癥”.,求解如下:,設 A=抽查的人患有癌癥, B=試驗結果是陽性,,求P(A|B).,已知 P(A)=0.005,P( )=0.995, P(B|A)=0.95, P(B| )=0.04,現(xiàn)在來分析一下結果的意義.,由貝葉斯公式,可得,代入數(shù)據(jù)計算得: P(A|B)= 0.1066,2. 檢出陽性是否一定患有癌癥?,1. 這種試驗對于診斷一個人是否患有癌癥 有無意義?,如果不做試驗,抽查一人,他是患者的概率 P(A)=0.005,患者陽性反應的概率是0.95,若試驗后得陽性反應,則根據(jù)試驗得來的信息,此人是患者的概率為 P(AB)= 0.1066,說明這種試驗對于診斷一個人是否患有癌癥有意義.,從0.005增加到0.1066,將近增加約21倍.,1. 這種試驗對于診斷一個人是否患有癌癥 有無意義?,2. 檢出陽性是否一定患有癌癥?,試驗結果為陽性,此人確患癌癥的概率為 P(AB)=0.1066,即使你檢出陽性,尚可不必過早下結論你有癌癥,這種可能性只有10.66% (平均來說,1000個人中大約只有107人確患癌癥),此時醫(yī)生常要通過再試驗來確認.,下面我們再回過頭來看一下貝葉斯公式,貝葉斯公式,在貝葉斯公式中,P(Ai)和P(Ai |B)分別稱為 原因的先驗概率和后驗概率.,P(Ai)(i=1,2,n)是在沒有進一步信息(不知道事件B是否發(fā)生)的情況下,人們對諸事件發(fā)生可能性大小的認識.,當有了新的信息(知道B發(fā)生),人們對諸事件發(fā)生可能性大小P(Ai | B)有了新的估計.,例 某醫(yī)院對某種疾病有一種看起來很有效的檢驗方法,97%的患者檢驗結果為陽性,95%的未患病者檢驗結果為陰性,設該病的發(fā)病率為0.4%現(xiàn)有某人的檢驗結果為陽性,問他確實患病的概率是多少?,得到,由貝葉斯公式得,解 記B為檢驗結果是陽性,則 為檢驗結果是陰性,A表示患有該病,則 為未患該病由題意,(1) 條件概率,全概率公式,貝葉斯公式,小結,乘法定理,第二節(jié) 概率分布,2.2.1 隨機變量 2.2.2 離散型概率分布 2.2.3 連續(xù)型概率分布 2.2.4 概率分布與頻數(shù)分布的關系,概率分布及其特征,具有多種可能結果的現(xiàn)象稱為隨機現(xiàn)象,隨機現(xiàn)象的每一可能結果即是一個隨機事件,換句話說,隨機變量的每一可能取值都是一個隨機事件。 概率是度量隨機事件出現(xiàn)或發(fā)生的可能性大小的一種尺度。 概率分布由隨機變量的取值(x)及其相應的P(x)概率構成。,2.2.1 隨機變量,根據(jù)概率不同而取不同數(shù)值的變量稱為隨機變量(Random Variable)。 注意: (1)一個隨機變量具有下列特性:RV可以取許多不同的數(shù)值,取這些數(shù)值的概率為p,p滿足:0p1。 (2)隨機變量以一定的概率取到各種可能值,按其取值情況隨機變量可分為兩類:離散型隨機變量和連續(xù)型隨機變量。離散型隨機變量的取值最多可列多個;連續(xù)型隨機變量的取值充滿整個數(shù)軸或者某個區(qū)間。 (3)本書中,隨機變量用x、y、等符號表示,直觀上看,所謂隨機變量,就是我們在隨機實驗中測定的量。例如觀察10只新生動物的性別,并計算其中雄性動物的數(shù)量X,顯然X可能取值為0,1,10;但究竟取值為幾,只能在實驗結束時才知道。象這樣在實驗中所得到的取值有隨機性的量,就稱為隨機變量。隨機變量的特點就是當實驗條件一定時,實驗結果仍不確定。,2.2.1 隨機變量,上面所舉的例子是離散型的隨機變量,因為它只有有限個或可列個可能的取值。另外還有一大類隨機變量,它們的取值是在某個區(qū)間中連續(xù)變化的,例如人的身高,體重,胸圍象這樣的隨機變量稱為連續(xù)型隨機變量。,2.2.1 隨機變量,離散型隨機變量與連續(xù)型隨機變量,10 20 30 40 50,1.0,概率,概率,x,x,1.0,離散型隨機變量,連續(xù)型隨機變量,隨機變量的取值是有隨機性的,我們事先無法知道,但它的取值也是有規(guī)律性可循的,這種規(guī)律性就表現(xiàn)在各個值出現(xiàn)的頻率上。,隨機變量函數(shù)的概念和分布,P(X=x)=p(x); P稱為概率函數(shù) 顯然概率函數(shù)應滿足:對任意可能結果x,有 p(x)0, 且,對于連續(xù)型隨機變量來說,它的可能取值是不可列的,實際上它取到某一個確定值的可能性都為0,稱f(x)為隨機變量X的密度函數(shù),顯然應有f(x)0,,隨機變量函數(shù)的概念和分布,隨機變量函數(shù)的概念和分布,按隨機變量取值的特點,概率分布可分為離散型隨機變量的概率分布和連續(xù)型隨機變量的概率分布。,設X為一隨機變量,稱函數(shù) F(x) = P(Xx) (-x+)為X的分布函數(shù)。 這個定義適用于離散型隨機變量,也適用于連續(xù)型隨機變量。 連續(xù)型分布函數(shù)也可表示為密度函數(shù)的積分:,顯然有:,隨機變量函數(shù)的概念和分布,2.2.2 離散型概率分布,P(X=xi) = p(xi), i=1,2,3, p(xi), i=1,2,3,稱為隨機變量X的概率分布,通常用下面的形式表示離散型隨機變量X的概率分布:,分布函數(shù)為: F(x)=P(Xx)=,2.2.3 連續(xù)型概率分布,連續(xù)型隨機變量X可取某個區(qū)間c, d或(,)中的一切值,且存在可積函數(shù)f (x),使 , f(x) 稱為X的密度函數(shù),F(xiàn)(x) 稱為X的分布函數(shù)。顯然,頻率與概率都是一個居于0和1之間的數(shù)。 頻率是相對于樣本而言,而概率則是相對于總體而言。因此可以說概率是頻率的理論值,頻率是概率的試驗值或估計值。 頻率分布是一種觀察分布,而概率分布則是一種理論分布。,2.2.4 概率分布與頻數(shù)分布的關系,2.2.4 概率分布與頻數(shù)分布的關系,設(x1,x2,xn)為一組樣本觀察值,函數(shù)f( x1,x2,xn )若不含有未知參數(shù),則稱為統(tǒng)計量。 統(tǒng)計量一般是連續(xù)函數(shù)。由于樣本是隨機變量,因而它的函數(shù)也是隨機變量,所以,統(tǒng)計量也是隨機變量。 統(tǒng)計量一般用它來提取或壓榨由樣本帶來的總體信息。,2.2.4 概率分布與頻數(shù)分布的關系,總體的數(shù)字特征是一個固定不變的數(shù),稱為參數(shù); 樣本的數(shù)字特征是隨抽樣而變化的數(shù),是一個隨機變量,稱為統(tǒng)計量。,第三節(jié) 總體特征數(shù),一、數(shù)學期望 二、方差 三、數(shù)學期望與方差的圖示,研究數(shù)字特征的必要性 兩個最重要的數(shù)字特征 (1)數(shù)學期望 (2)方差,一、數(shù)學期望,研究數(shù)字特征的必要性,總體就是一個隨機變量。對總體的描述就是對隨機變量的描述。隨機變量的分布就是對隨機變量最完整的描述。但是, (1)求出總體的分布往往不是一件容易的事情; (2)而且,在很多情況下,我們并不需要全面考察隨機變量的變化情況,只需要了解總體的一些綜合指標。一般說來,常常需要了解總體的一般水平和它的離散程度; (3)如果了解總體的一般水平和離散程度,就已經(jīng)對總體有了粗略的了解了; (4)在很多情況下,了解這兩個數(shù)字特征還是深入求出總體分布的基礎和關鍵。 由此看來,研究隨機變量的數(shù)字特征是十分必要的。,數(shù)學期望的定義,定義2.1離散型隨機變量數(shù)學期望的定義 假定有一個離散型隨機變量X有n個不同的可能取值x1,x2,xn,而p1,p2,pn是X取這些值相應的概率,則這個隨機變量X的數(shù)學期望定義如下: 數(shù)學期望描述的是隨機變量(總體)的一般水平。 定義2.2連續(xù)型隨機變量數(shù)學期望的定義,女兒期待父親釣多少魚回家?,數(shù)學期望是最容易發(fā)生的,因而是可以期待的。它反映數(shù)據(jù)集中的趨勢。,數(shù)學期望的性質,(1)如果a、b為常數(shù),則 E(aX+b)=aE(X)+b (2)如果X、Y為兩個隨機變量,則 E(X+Y)=E(X)+E(Y) (3)如果g(x)和f(x)分別為X的兩個函數(shù),則 Eg(X)+f(X)=Eg(X)+Ef(X) (4)如果X、Y是兩個獨立的隨機變量,則 E(X.Y)=E(X).E(Y),求離散型隨機變量數(shù)學期望舉例,
展開閱讀全文