《語言統(tǒng)計第二章數(shù)據(jù)的初步整理——統(tǒng)計圖表》由會員分享,可在線閱讀,更多相關(guān)《語言統(tǒng)計第二章數(shù)據(jù)的初步整理——統(tǒng)計圖表(22頁珍藏版)》請在裝配圖網(wǎng)上搜索。
1、單擊此處編輯母版標(biāo)題樣式,,*,*,*,單擊此處編輯母版文本樣式,,第二級,,第三級,,第四級,,第五級,,第二章 數(shù)據(jù)的初步整理 ——統(tǒng)計圖表,第一節(jié) 范疇型數(shù)據(jù)的整理,,第二節(jié) 數(shù)值型數(shù)據(jù)的整理,,一、原始數(shù)據(jù),,二、次數(shù)分布表,,三、次數(shù)分布圖,,同任何研究一樣,語言研究的目的是為了探討和說明問題,以便深入地了解事物或現(xiàn)象的本質(zhì)及其相互關(guān)系,而對數(shù)據(jù)的統(tǒng)計分析是實現(xiàn)這一目的的重要一環(huán)。對原始數(shù)據(jù)進(jìn)行整理的根本方法之一是編制統(tǒng)計圖表。統(tǒng)計表把被說明的事物及有關(guān)統(tǒng)計數(shù)字分門別類地整齊地表示出來,簡潔明了,易于比較分析;統(tǒng)計圖那么使數(shù)據(jù)的突出特征具體
2、、形象、直觀、生動地展示出來,易于理解,且印象深刻。因而,圖表的適當(dāng)應(yīng)用可以起到去粗取精、化繁為簡的作用。,第一節(jié) 范疇型數(shù)據(jù)的整理,,在語言研究中 經(jīng)常要把研究對象〔人、反響、語言現(xiàn)象等〕按某種標(biāo)準(zhǔn)分成相互排斥的類或范〔或者根據(jù)多種標(biāo)準(zhǔn)交叉分類〕,這類數(shù)據(jù)叫做范疇型數(shù)據(jù)〔見第一章“稱名變量〞〕。對于范疇型數(shù)據(jù)的整理,主要是進(jìn)行分類并計算出每一類的觀察次數(shù)和相對次數(shù)〔即在總次數(shù)中所占的百分比〕,最后以表和條線圖的形式表示出來。,例如,我們從學(xué)生的英語作業(yè)中收集到90個錯誤,經(jīng)分析,其中30個是由漢語干擾造成的,25個是由過度概括造成的 ,個是個是由教學(xué)方法不當(dāng)造成的,20個是由教學(xué)方法不當(dāng)造
3、成的,15個是由其它原因造成的。此數(shù)據(jù)可以整理如下表〔相對次數(shù)也可以加括號放在次數(shù)之后〕:,該數(shù)據(jù)也可以用條線圖進(jìn)行更直觀的表示:,,坐標(biāo)中橫坐標(biāo)代表范疇或類別,縱坐標(biāo)代表每個類別的觀察次數(shù)。,第二節(jié) 數(shù)值型數(shù)據(jù)的整理,,語言研究中更經(jīng)常遇到的是數(shù)值型數(shù)據(jù),譬如考試分?jǐn)?shù)、句子閱讀時間、每句單詞數(shù)等。如果數(shù)據(jù)量很小〔譬如只有幾個數(shù)值〕,把它列舉出來即可,而不需進(jìn)行任何整理,但是對于數(shù)量較大的數(shù)據(jù),那么必須利用圖表進(jìn)行初步整理,才能更易看出其中帶有規(guī)律性的特點,尤其是數(shù)據(jù)中各數(shù)值的分布情況,譬如數(shù)據(jù)的集中趨勢及離中趨勢〔詳細(xì)討論見第三章〕,即數(shù)據(jù)的典型數(shù)值以及數(shù)值之間的差異程度。,一、原始數(shù)據(jù),
4、,下面一組數(shù)據(jù)為一篇英語閱讀材料中100個句子的長度數(shù)據(jù)〔以音節(jié)數(shù)表示〕:,表2.2〔a〕 100個英語句子的長度值﹡,29 40 36 58 20 23 44 18 47 18,,22 17 13 12 11 20 21 9 14 6,,26 8 17 24 27 9 16 28 12 22,,21 56 44 26 35
5、 21 55 17 50 40,,48 20 14 12 17 10 25 24 20 18,,18 19 20 15 26 23 16 18 12 24,,12 40 34 26 13 37 19 22 22 48,,17 23 14 16 13 10 19 17 9
6、 16,,12 13 9 16 19 19 14 10 11 16,,16 15 8 8 15 15 39 44 51 29,,58 29 21 17 13,,56 28 20 17 12,,55 27 20
7、 16 12,,51 26 20 16 12,,50 26 20 16 12,,48 26 20 16 12,,48 26 19 16 12,,47 25 19
8、 16 11,,44 24 19 16 11,,44 24 19 15 10,,44 24 19 15 10,,40 23 18 15 10,,40 23 18
9、 15 9,,40 23 18 14 9,,39 22 18 14 9,,37 22 18 14 9,,36 22 17 14 8,,35 22 17
10、 13 8,,34 21 17 13 8,,29 21 17 13 6,表 2.2 (b) 100個句子的長度〔按數(shù)值大小排列〕,對于這樣數(shù)值數(shù)目較大的數(shù)據(jù),按表2.2〔a〕列舉,其用處是很有限的,因為它雜亂無序,難以獲得有價值的信息。如果像表 2.2 (b) 按照數(shù)值的大小順序列舉,數(shù)據(jù)的條理性和清晰性就可以大大提高。,,表2.2 (b) 看起來比表2.2〔a〕清晰多了,
11、稍加分析就可以看出數(shù)據(jù)的分布情況,例如,最長句與最短句的長度是多少,二者之間的距離有多大〔可粗略表示數(shù)據(jù)的離散情況〕,哪些長度的句子出現(xiàn)次數(shù)比較多〔大體表示數(shù)據(jù)的集中情況,等等。,二、次數(shù)分布表,,盡管通過排序,數(shù)據(jù)的條理性有所提高,但是表2.2 (b) 仍然不夠簡明,不能做到一目了然。從表中可以看出,數(shù)據(jù)中數(shù)值出現(xiàn)的次數(shù)或頻率是不同的,有的只出現(xiàn)一次,而大局部是重復(fù)出現(xiàn)的,如果把重復(fù)出現(xiàn)的數(shù)值在表中只列舉一次,隨后標(biāo)明其出現(xiàn)的次數(shù),就可以把數(shù)據(jù)進(jìn)一步壓縮,使其更加條理化。這樣的表稱為次數(shù)分布表。,,1.未分組與分組次數(shù)分布表,,次數(shù)分布表示數(shù)據(jù)的散布情況,而次數(shù)分布表那么是對數(shù)據(jù)進(jìn)行初步整理
12、的重要手段,它能較為直觀地表示出數(shù)據(jù)的分布情況,使人們得以大體上了解數(shù)據(jù)的平均水平和差異情況等。一般來講,次數(shù)分布表的最左邊一列為各個數(shù)值,接下來為登記次數(shù),其次為各數(shù)值出現(xiàn)的次數(shù)。上述句子長度數(shù)據(jù)的次數(shù)分布表如下:,表2.2〔c)不僅清楚地顯示出了句子長度的分散范圍,而且說明了各長度的句子出現(xiàn)的次數(shù),其中次數(shù)最高(7)的長度是16,其他長度的句子,出現(xiàn)的次數(shù)向兩邊逐漸減少直至1,出現(xiàn)次數(shù)較低的句子多為長句。,2.編制分組次數(shù)分布表的方法,,編制分組次數(shù)分布表的關(guān)鍵是確定組距和組數(shù)。具體方法如下:,,〔1〕求全距或兩極差:全距是指一組數(shù)據(jù)中最大數(shù)值與最小數(shù)值之差,因此,只要在數(shù)據(jù)中找出最大數(shù)值
13、與最小數(shù)值,然后從前者減去后者,即得全距。,,〔2〕求組距:組距也叫做分組區(qū)間,指每組中最高數(shù)值〔成為“上限〞〕與最低數(shù)值〔成為“下限〞〕之間的距離,常用符號i表示,為了便于計算分組區(qū)間和組中點。各組組距應(yīng)盡量相等。常用組距一般為2,3,5,10等,但最好取單數(shù),這樣便于定組中點。為了能確定一個最正確的組數(shù),當(dāng)數(shù)據(jù)的總體分布為正態(tài)時,可以用下面的公式計算,K=1.87(N-1)2/5 (2.1),,式中 K——組數(shù)〔取近似整數(shù)〕,,N——數(shù)據(jù)中數(shù)值的個數(shù),,(3) 確定具體分組區(qū)間:各分組區(qū)間按照數(shù)值的大小,從高到低或從低到高排列均可,最高一組和
14、最低一組應(yīng)能分別包含數(shù)據(jù)中的最大值和最小值。而且最高組或最低組的下限最好只組距的整數(shù)倍。分組區(qū)間列出后,要找出組中點,方法:上限與下限之和除以2,或每組下限加組距之半。例如10~15這一分組區(qū)間的組中點為〔10+15〕/2=12.5,或10+5/2=12.5。,〔4〕登記次數(shù):這一步需注意兩點:一是每組的精確上下限,這樣才能處于組限的數(shù)據(jù)〔尤其是含有小數(shù)的數(shù)值〕歸入適當(dāng)?shù)慕M別;二是要防止漏登或重復(fù)登記等訛誤。,,〔5〕計算次數(shù):全部數(shù)據(jù)登記完畢,數(shù)一數(shù)每個分組區(qū)間內(nèi)數(shù)值的個數(shù),即得出各組的次數(shù),然后把各組次數(shù)相加,就得出總次數(shù)。通常用字母f來表示次數(shù),那么總次數(shù)就為 ,等于數(shù)據(jù)中數(shù)值的的
15、總個數(shù)N。還可在各組次數(shù)的根底上進(jìn)一步計算相對次數(shù)、累計次數(shù)和相對累積次數(shù)。,三、次數(shù)分布圖,,如果用統(tǒng)計圖來表示數(shù)據(jù)的次數(shù)分布,那么更加直觀清楚。比較常用的統(tǒng)計圖有次數(shù)分布直方圖和次數(shù)分布多邊圖。這兩種圖都是用面積來表示數(shù)據(jù)的分布。,,1.次數(shù)分布直方圖,,分組數(shù)據(jù)的次數(shù)分布直方圖的繪制方法如下:,,〔1〕畫一個直角坐標(biāo)系,在橫坐標(biāo)上標(biāo)明各分組區(qū)間,在縱坐標(biāo)上標(biāo)出次數(shù)。分組區(qū)間一般有兩種標(biāo)示方法:一種是標(biāo)出各組的下限;另一種是標(biāo)出各組的組中點。,〔2〕在每個分組區(qū)間上面畫一直方形,其寬度等于組距,高度等于每分組區(qū)間的次數(shù)。如果橫坐標(biāo)上標(biāo)的是每組的組中點,那么組中點應(yīng)位于直方形底邊的正中間。,
16、,〔3〕把各直方形連在一起〔中間不留間隙〕。,,上述句子長度數(shù)據(jù)的次數(shù)分布直方圖如圖2.2,當(dāng)然,也可以用未分組的數(shù)據(jù)繪制次數(shù)分布直方圖。,這時橫坐標(biāo)表示的是每一個數(shù)值,縱坐標(biāo)表示數(shù)值的次數(shù),直方形要繪在橫坐標(biāo)上的每個數(shù)值之上,其寬度要相等,標(biāo)出的數(shù)值應(yīng)位于直方形底邊的中間。但是如果數(shù)據(jù)量較大,就會給分布圖的繪制以及顯示信息的清晰度帶來一些問題,因為在一定的空間內(nèi)難以把所有數(shù)值清楚地安排在橫坐標(biāo)上;此外,這樣的分布圖對數(shù)據(jù)的整理和壓縮作用也不大。,,2.次數(shù)分布多邊圖,,次數(shù)分布多邊圖的繪制與直方圖的繪制根本相同。對于未分組數(shù)據(jù),在橫坐標(biāo)上的每個數(shù)值的上方畫一個點,點的高度等于各數(shù)值的次數(shù)。對
17、于分組數(shù)據(jù),那么在橫坐標(biāo)的每個分組區(qū)間的組中點上方畫一個點,點的高度等于各分組區(qū)間的次數(shù)。然后用直線把各點連接起來。,,圖2.3為句子長度數(shù)據(jù)的次數(shù)多邊圖,較之直方圖,次數(shù)多邊圖可以把幾組數(shù)據(jù)的次數(shù)分布情況顯示在一個直角坐標(biāo)系里,因而便于對它們進(jìn)行直觀的比較。,小 結(jié),,如前所述,原始實驗數(shù)據(jù)往往雜亂無章,如果不加以適當(dāng)?shù)恼?,大量有份值的信息就會被掩蓋起來,同時也無法進(jìn)行進(jìn)一步的統(tǒng)計分析,這樣的數(shù)據(jù)是說明不了什么問題的。因而,統(tǒng)計分析的第一項重要工作就是對原始數(shù)據(jù)進(jìn)行初步整理、歸納和分類,使其最突出、最重要的特征得以顯現(xiàn)出來。本章介紹了在語言研究中對數(shù)據(jù)進(jìn)行整理壓縮的常用圖表的編制方法和本卷須知。,