国产激情久久久久影院小草_国产91高跟丝袜_99精品视频99_三级真人片在线观看

基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

  • 相關推薦

基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計

基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計 1 問題的提出
  與經(jīng)典測驗理論相比,項目反應理論(簡稱IRT)由于具有參數(shù)不變性、能進行計算機化自適應測驗等優(yōu)點而受到歡迎,但是也存在著不少問題,首先是目前比較成熟的、得到廣泛應用的IRT軟件,如BILOG、MicroCAT等,主要是運用極大似然法或貝葉斯方法進行項目參數(shù)和被試能力估計,一般都只能處理二值記分的項目,也有少數(shù)軟件可以處理等級記分的項目,例如MULTILOG,但對于連續(xù)記分的項目還缺少估計方法和工具;其次是在運用BILOG、MicroCAT和MULTILOG等軟件時往往需要數(shù)百人的大樣本,而對于小樣本則缺少有效的估計方法,因此需要另尋途徑來解決這些問題。
    2 聯(lián)結(jié)主義理論中的級連相關模型
  聯(lián)結(jié)主義理論(或稱人工神經(jīng)網(wǎng)絡)是近年來得到廣泛關注的認知心理學理論,它一方面可以用來模擬人的認知活動,探討人類的信息加工機制,另一方面可以作為一種工具來分析系統(tǒng)的輸入和輸出之間的關系,特別是當系統(tǒng)的輸入和輸出之間難以用顯性的數(shù)學方程表示時,聯(lián)結(jié)主義模型就可以通過其本身的學習功能,在用一組已知的輸入和輸出數(shù)據(jù)對它進行訓練以后,就可以在一定程度上掌握了該系統(tǒng)內(nèi)部的輸入和輸出之間的關系,即建立了某種模型。如果我們再給這個經(jīng)過訓練的網(wǎng)絡模型以新的輸入,那么它就可以給出相應的輸出值。因此,人們可以利用聯(lián)結(jié)主義模型的這種性質(zhì)來進行預測和參數(shù)估計等活動。
  聯(lián)結(jié)主義模型通常由一個輸入層、一個輸出層和若干個隱含層組成,每一層中含有若干個結(jié)點,一個模型中所含的隱含層數(shù)目和各層所含結(jié)點數(shù)目,是由具體問題的性質(zhì)和復雜程度來確定的。各個結(jié)點之間的聯(lián)結(jié)具有一定的權重,它的大小反映了相鄰兩個結(jié)點之間相互影響的程度,在模型被訓練的過程中,各結(jié)點間的權重得到了調(diào)整。
  聯(lián)結(jié)主義模型通?梢苑譃殪o態(tài)型和動態(tài)型兩種,靜態(tài)型模型的拓撲結(jié)構是實驗者在一開始的時候就設計好的,它的訓練過程就是調(diào)節(jié)各結(jié)點之間的權重。動態(tài)型模型的拓撲結(jié)構是在訓練過程中不斷變化的,它能夠隨著訓練的進行,自動地加入新的隱含結(jié)點,同時也調(diào)整各結(jié)點間的聯(lián)結(jié)權重,這樣就可以更快地減少訓練誤差。
  級連相關模型是動態(tài)型聯(lián)結(jié)主義模型中的一種,它的計算精度較高,運算速度較快。在開始訓練時,該模型只有輸入層和輸出層,處于最小拓撲結(jié)構。隨著訓練過程的進行,它能夠根據(jù)需要自動地逐個加入隱含結(jié)點。該模型的訓練分為輸出和輸入兩個階段交替進行,首先是輸出階段,在這一階段,模型對聯(lián)結(jié)隱含結(jié)點和輸出結(jié)點間的各權重進行調(diào)整,直到誤差不再減少為止;然后轉(zhuǎn)至輸入階段,在這一階段,模型對于聯(lián)結(jié)輸入結(jié)點和候選隱含結(jié)點間的各個權重進行調(diào)整,并從中選出其輸出變量和網(wǎng)絡的誤差變量間相關為最大的候選隱含結(jié)點,把它裝入網(wǎng)絡,這樣使得每次裝入的新隱含結(jié)點都能最大程度地影響誤差的變化。然后再轉(zhuǎn)至輸出階段,這個過程不斷重復,直到達到預定的訓練精度。在本研究中,由于無法事先確定模型的拓撲結(jié)構,以及為了較快地對模型進行訓練和達到較好的訓練和測試效果,采用了級連相關模型作為研究的工具。
    3 連續(xù)記分IRT模型
  連續(xù)記分IRT模型是二值記分IRT模型的擴展,即它的記分不是按照二值邏輯的全對或全錯的方式來進行,而是根據(jù)被試答對項目的程度來進行記分,如果全對該題目就得滿分。由于各題目的滿分值不一樣,有的是3分、5分、6分或更高的分數(shù),為了統(tǒng)一起見,可以對它們進行歸一化處理,全部轉(zhuǎn)化為0至1的值。這樣就可以和下面的三參數(shù)邏輯斯諦模型中的P(θ)相一致。Samejima、Muller和Mullenbergh等都對連續(xù)記分IRT模型進行過研究,它和二值記分模型一樣,可以用正態(tài)卵形模型和邏輯斯諦模型表示。對于常用的三參數(shù)邏輯斯諦模型,它的表示式為:
  P(θ)=c (1-c)exp(θ-b)]/{1 exp(θ-bi)]}
  在該模型中,式中的ai、bi和ci分別為第i個項目的區(qū)分度、難度和猜測參數(shù),θ為某個被試的能力,P(θ)為該被試答對第i個項目的概率,它的值為0至1,這是一個連續(xù)的值。
  雖然有些學者對于該模型進行了一些研究,但是他們的研究還只是涉及該模型的性質(zhì)、信息函數(shù)的定義、參數(shù)不變性等方面,在具有實用意義的參數(shù)和被試能力估計方面還沒有成熟的結(jié)果。
  為了對連續(xù)記分IRT模型的參數(shù)估計問題進行研究,作者對目前常用的幾個IRT軟件的算法進行分析,發(fā)現(xiàn)它們的共同特點都是運用統(tǒng)計的方法來進行參數(shù)估計,都無法對小樣本情況下的IRT連續(xù)記分模型進行參數(shù)估計,于是作者就決定另辟捷徑,在本研究中采用了和常用統(tǒng)計技術完全不同的聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡)方法。運用統(tǒng)計方法不能完全解決的問題,并不意味著用其它方法就不能解決,其關鍵問題是常用的統(tǒng)計參數(shù)估計方法大多是建立在線性模型的基礎上的,而被試的反應和IRT中參數(shù)之間的關系是非線性的,因此在運用統(tǒng)計方法進行參數(shù)估計時,要采用大樣本才能得到較好的結(jié)果。而人工神經(jīng)網(wǎng)絡的輸出和輸入之間的關系本身就是非線性的,特別值得一提的是,本研究把人工神經(jīng)網(wǎng)絡的激活函數(shù)設計為S型的Sigmoid函數(shù),它的表達式為
  f(x)=exp(x)/
  它和上述的三參數(shù)邏輯斯諦模型的表示式非常相似,仔細比較一下,就可以看出它實際上就是IRT模型在c=0,b=0,1.7a=1,θ=x時的特例,因此聯(lián)結(jié)主義模型(人工神經(jīng)網(wǎng)絡)的這種輸出和輸入之間的非線性結(jié)構就可以較好地處理IRT中相類似的數(shù)據(jù)關系。
    4 計算機模擬實驗的設計和實施
  該實驗的基本思想是:把一組被試對于一組項目的反應矩陣作為級連相關模型(以下簡稱為神經(jīng)網(wǎng)絡)的輸入,這組被試的能力θ或該組項目的參數(shù)a、b和c作為該模型的輸出,并且用這些輸入和對應的輸出值對該神經(jīng)網(wǎng)絡進行訓練,經(jīng)過訓練的網(wǎng)絡就具備了估計θ,a,b或c的能力。當輸入一組新的反應矩陣時,該網(wǎng)絡就可以輸出所需的被試能力或項目參數(shù)估計值。本實驗是用計算機模擬方法來考察運用這種方法得到的估計值和真實值之間的誤差是否能夠達到相當小的程度。
    4.1 實驗步驟的設計
    整個實驗分以下幾個步驟進行:
  (1)運用蒙特卡羅方法產(chǎn)生一組均勻分布的被試能力值θ,一組均勻分布的項目參數(shù)值(包括項目區(qū)分度a、項目難度b和項目猜測參數(shù)c)。被試能力值θ的分布范圍為,項目區(qū)分度a的分布范圍為,項目難度b的分布范圍為,項目猜測參數(shù)c的分布范圍為。
  (2)根據(jù)項目反應模型,讓各個模擬的被試回答各個模擬的項目,產(chǎn)生反應矩陣。
  (3)將該反應矩陣作為神經(jīng)網(wǎng)絡訓練模式的輸入部分,用所要學習的項目參數(shù)或被試能力作為訓練模式的輸出部分。若要估計被試的能力,就把反應矩陣中的每一行作為一個模式,因為它恰好是一個被試對于一組項目的反應;若要估計項目參數(shù),就把反應矩陣中的每一列作為一個模式,因為它反映了每一個項目被解答的情況。
  (4)用上述訓練模式對一組神經(jīng)網(wǎng)絡進行訓練,直至達到預定的精確度為止。在本研究中為了統(tǒng)計上的方便,對30個神經(jīng)網(wǎng)絡進行了訓練,預定的精確度為網(wǎng)絡的目標值和實際輸出值之間的誤差小于0.001。
  (5)用經(jīng)過訓練的神經(jīng)網(wǎng)絡來估計被試能力和項目參數(shù)。在本研究中需要估計的被試能力和項目參數(shù)的真實值實際上是用蒙特卡羅方法產(chǎn)生的,因此可以計算出估計值(實際輸出值)和真實值的誤差,稱為測試誤差,并用下式表示:
  附圖
  式中,T為每個測試模式的每個輸出結(jié)點的目標值。N為每個測試模式的每個輸出結(jié)點的實際輸出值。p是測試模式的數(shù)目,o是輸出結(jié)點的數(shù)目。根據(jù)測試誤差E的大小,可以看出經(jīng)過訓練的神經(jīng)網(wǎng)絡是否真正可以對項目參數(shù)和被試能力進行很好的估計。
    4.2 預備實驗
  由于在正式對神經(jīng)網(wǎng)絡進行訓練以前,對于要用什么樣的模式來訓練沒有任何先驗的知識,為此先進行預備實驗。和正式實驗的步驟一樣,首先運用蒙特卡羅方法產(chǎn)生25個被試對15個項目的反應矩陣,用這一矩陣和相應的被試能力或項目參數(shù)組成4組訓練模式,分別用以估計θ,a,b和c。在對被試能力進行估計時,將矩陣的行作為一組神經(jīng)網(wǎng)絡訓練模式的輸入部分,因為矩陣的一行數(shù)據(jù)就代表了一個被試對所有項目的反應;相應被試的θ值作為訓練模式的輸出部分,因為它代表了被試的能力值。在對項目參數(shù)進行估計時,將矩陣的列作為一組神經(jīng)網(wǎng)絡訓練模式的輸入部分,因為矩陣的一列數(shù)據(jù)就代表了所有被試對一個項目的反應;相應項目的a,b或c值作為訓練模式的輸出部分,因為它代表了項目的參數(shù)值。就用這些訓練模式分別對4組神經(jīng)網(wǎng)絡進行訓練,這4組神經(jīng)網(wǎng)絡分別對應于被試能力和項目的三個參數(shù),每組有30個網(wǎng)絡。然后,再用蒙特卡羅方法產(chǎn)生另外25個被試對另外15個項目的反應矩陣,并用已經(jīng)訓練過的網(wǎng)絡對這個反應矩陣估計θ,a,b和c,記錄下測試誤差。其結(jié)果表明,雖然可以進行被試能力和項目參數(shù)的估計,但誤差較大,無法達到實際應用的精確度。根據(jù)神經(jīng)網(wǎng)絡訓練的一般規(guī)律,估計出現(xiàn)這一情況的原因有兩條,一是訓練模式太少,二是訓練模式和測試模式之間沒有任何聯(lián)系,即沒有用“錨題”或“錨人”把它們聯(lián)系起來,改進的方法可以是增加訓練模式,或運用一定的“錨題”或“錨人”方法,在本研究中先用“錨題”的方法進行試驗(具體方法在進行正式實驗時詳述),試驗的效果很好,然后進行下面的正式實驗。
    4.3 正式實驗
    (1)步驟1:產(chǎn)生訓練矩陣和測試矩陣
  運用蒙特卡羅方法產(chǎn)生25個被試(稱為第一組被試)對45個項目(稱為第一組項目)的反應矩陣(稱為第一矩陣),這一矩陣在下面的實驗中將作為測試矩陣;從該45個項目中隨機取出15個項目(稱為第二組項目),再用蒙特卡羅方法產(chǎn)生另外25個被試(稱為第二組被試),令它們和上述隨機取出的第二組項目起反應,產(chǎn)生另一個反應矩陣(稱為第二矩陣),用它作為訓練模式的一部分,由此可見,訓練矩陣和測試矩陣之間有15個項目作為“錨題”,如下面圖1所示。
  附圖
    圖1 被試、項目和反應矩陣
  圖1中的第三組項目和第三矩陣將在下面作解釋。
    (2)步驟2:建立能力訓練模式
  用“第二矩陣”中的每一行作為一個模式的輸入,其相應的25個第二組被試的能力值作為輸出,組成能力訓練模式,對一組神經(jīng)網(wǎng)絡(共30個,稱為第一組神經(jīng)網(wǎng)絡)進行訓練。
    (3)步驟3:建立能力測試模式并進行測試
  將“第一矩陣”中的每一行作為一個模式的輸入,相應的第一組被試的25個能力值作為輸出,組成能力測試模式,用上述經(jīng)過訓練的第一組神經(jīng)網(wǎng)絡對其進行測試。這時,實際上是神經(jīng)網(wǎng)絡對第一組被試的能力值進行估計。然后,將估計值和真實值進行比較,記錄下測試誤差,如表1左邊第1列所示,要注意的是,表中記錄的是30個網(wǎng)絡的測試誤差實際值,根據(jù)公式可見,它是所有輸出結(jié)點和所有測試模式的誤差總和。由于本研究中只有一個輸出結(jié)點,有25個測試模式(因為有25個被試),因此要將表中的測驗誤差實際值除以25,得到對單個測試模式的測試誤差,然后,再計算其平均數(shù)M和標準差SD,結(jié)果如表2所示,可以看出測試誤差是比較小的。由此可見,當測試模式中有部分項目(本例中為15個項目)和訓練模式相同時,經(jīng)過訓練的神經(jīng)網(wǎng)絡可以對被試的θ進行很好的估計。應該指出的是,測試模式和訓練模式中沒有被試是重復相同的,這說明經(jīng)過訓練的神經(jīng)網(wǎng)絡確實可以對新的被試進行能力估計。
    表1 測試誤差
θ        a       b         c
0.129     2.239     2.982       0.065
0.084     1.843     2.976       0.056
0.243     2.016     2.798       0.069
0.324     1.804     2.133       0.058
0.126     2.159     2.556       0.027
0.201     2.224     2.399       0.067
0.288     2.246     2.617       0.043
0.114     1.741     2.834       0.065
0.189     1.937     2.347       0.076
0.249     2.295     2.745       0.092
0.264     2.319     2.433       0.065
0.321     2.382     2.030       0.044
0.105     2.136     2.231       0.093
0.132     2.061     2.244       0.023
0.153     2.019     2.868       0.068
0.279     2.270     2.042       0.044
0.204     2.196     1.850       0.099
0.102     1.950     2.597       0.059
0.105     1.732     1.709       0.089
0.282     1.764     2.328       0.072
0.228     2.281     2.556       0.114
0.256     2.089     1.961       0.071
0.222     2.445     2.002       0.093
0.210     1.666     2.243       0.035
0.138     1.743     2.441       0.075
0.201     2.438     2.034       0.080
0.171     1.740     2.100       0.106
0.246     2.307     2.594       0.069
0.195     1.577     2.535       0.057
0.213     2.436     2.199       0.057

 

下一頁

【基于聯(lián)結(jié)主義的連續(xù)記分IRT模型的項目參數(shù)和被試能力估計】相關文章:

有關EMS的最優(yōu)線路參數(shù)估計模型03-01

基于最小二乘模型的Bayes參數(shù)辨識方法03-07

母體為指數(shù)分布的參數(shù)估計和檢驗03-07

基于HDMI的ESD保護二極管模型及參數(shù)優(yōu)化03-07

HF信道復包絡參數(shù)估計法原理11-22

數(shù)學畢業(yè)論文-母體為指數(shù)分布的參數(shù)估計和檢驗03-04

均勻分布的參數(shù)估計與假設檢驗問題05-14

基于改進的Kalman濾波的雷達信號PRI估計03-07

基于項目管理能力的項目驅(qū)動型企業(yè)戰(zhàn)略風險形成研究03-22