第二期 2002年5月
編者的話 首頁

經 驗 共 享
>> 統籌評核測試工作有感-理解評量比評量結果重要 文.梁成安
 

背景

事緣於2000年12月,澳門大學接受了教青局的邀請,進行一項檢定性評核的測試(編者按:關於研究的內容,讀者可參閱教育暨青年局網頁 www.dsedj.gov.mo (中文版)之「文獻集」→「研究文獻」→「教育研究」。)。統籌工作落在本人身上。雖然,過去曾經統籌過多次類似的工作,但澳門對我來說始終是一個較陌生的地方,心情難免有點戰戰兢兢。可幸的是有多位地道的同事相助,令我對澳門有更深入的了解。

局限

第一項工作就是要「埋班」,即組識研究隊伍,尋找合適的同工作研究隊隊員。幾經艱苦,在眾多人士協助下,最終都能順利完成。透過這個過程,令我認識更多澳門本土人士,也是我的得著之一。

每一項工作都有其局限,這項工作也不會例外。是項工作的測試部份,必須在2001年各校內考試之後,及暑假開始之前進行。由這個「死線」向前數數,各項工作如擬定測試藍圖、擬題、審題、錄音(供聽力測試之用)、排版、印刷、抽樣、聯絡學校、統籌各研究助理、研究助理培訓等等工作,必須在此限期前依次序完成。雖然如此,有賴各研究隊員的合作,亦總算順利完成。

此次測試對本澳中學初三年級來說可算是第一次。因此各校願意參與已是成功的第一步,要學校騰出大量的時間,安排每個學生受測四個半小時,以供研究隊伍測試學生,是頗困難的事。故此,我們唯有用較為折衷的辦法,就是將學生隨機分成三等分,每個學生只測一科,歷時90分鐘。雖然這樣做某程度上失去了全面性,但我個人認為這是在有限條件內較為可取的做法。

雖然有意見認為測試未夠全面,但在細心客觀和具體的分析下,並考慮到測試之局限、樣本數目和質素,測試基本上能夠反映本澳學生整體的學科能力。在這裡值得一提的是,有教育界前輩向本人進言,這類的研究必

定引來某程度上的爭議,還是低調處理批評為宜。老實說,這也是我個人的得著呢!

沒有東西是完美的,在不完美中做到最好的,就是工作的藝術。本人對是次計劃尚算滿意,當然乃有不足之處,其中的好壞,還待公論。

如何理解評量比評量本身更重要

另一項我個人感受較深的事,就是如何理解評量可能比評量本身更重要。其實,每個人在一生中都必須面對不同的評量或測試,除了校內測驗、公開考試這些較明顯的例子外,還包括專業考試、考車牌、面試等等。從個人的角度出發,不論成敗,每次評量都應是一張「指示牌」,指示日後改善的方向,這便是評量本身的「診斷性」功能。而站在測試機構的角度出發,評量提供了足夠的數據和資訊,並將其放在「指示牌」之上。

其實,我想指出的是,若要評量發揮作用,除了評量本身是有效和可信外,數據的使用者用甚麼角度來理解評量的結果,可能更為重要。(註一)

各校不同背景

是次研究除了在報告中公佈澳門初三的整體學科能力的分佈外,每間參與學校亦分別收到本校的學科能力分佈。在這裡,我希望和大家分享一下如何審視這份「成績表」的一些想法。

影響學生成長的主要包括家庭、學校、朋輩和社會四方面。而學校只是其中的因素之一。每一個學生某程度上受著不同家庭背景和朋輩的影響。故此,在理解各數據時,必須考慮到不同學生固有的背景。舉例說,某學生取得八十分的高分,但背地裡卻獲得父母的關心和鼓勵,又有獨立的書房和補習老師。相反,另一學生雖然取得四十的低分,但他經常受到父母的無理責罵,放學後又要做兼職幫補家計,只能在惡劣和嘈吵的環境下溫習。面對以上兩種背景截然不同的學生,我們如何評價和理解評量所得的數據和資料呢?這些分數只能量度學生的最終獲得的學科能力,而不是取得這些學科能力背後付出的努力、溫習條件和效率;也不能因此而判斷學校的教學質量和教師在其中所付出的努力。事實上,將上述所說的混為一談只會令評量更複雜和更難理解。所以,評量的最大意義不在於評量本身,而是如何理解評量的結果。畢竟評量不是評價呢!

本人曾做一些微型分析,發覺社經背景越高,英文學科能力越強。但同樣的結果沒有明顯地出現於中文和數學之中。究竟哪是因?哪是果?是社經地位影響英文能力?還是英文能力影響社經地位?還是留待讀者去評論。請注意,這只是一個微型分析,其結果還需更多數據去檢證。

以上所說並不是要否定評量的價值,而是澄清評量所能發揮的作用。事實上,評量的人數和機構越多,評量能為個別人士或機構「度身訂造」的程度越少。課室測驗是為整班而非個別學生,校內測驗考試是為整級而非個別班級,公開大學入學試是為所有學生而非個別學校學生。大型測量的作用之一是估計個體在整體中的位置。(註二)

正如我先前所說,每次評量都可能是一個「指示牌」,指示以後的方面。面對評量結果,再考慮各校本身的背景,如何制定以後的方向?這個問題恐怕要留待由各校自行思量。

結語

理解評量可能比評量結果更重要。每個評量都有其局限,即使是全國大學入學試,也會局限於考生當時的生理及心理因素。話雖如此,本人無意貶低評量的價值,亦不認為廢除評量是可取的。我想指出的是,在考慮到評量的局限,再考慮各校、各班、各人的獨有背景,然後再對評量結果作出適當的理解,繼而尋求改善,方為最終的出路。

(作者為澳門大學教育研究中心主任)

註一:是項測試的效度主要環繞著內容效度,即測試題目真正能測試出想測試的項目。

註二:其實評量的分類有多種。大型評量可評估整體學生的表現,而個別小型評量可評估某班某學生在某單元的表現,以作回饋教學之用。本文章主要集中討論大型評量。

鳴謝:培道中學楊穎虹老師的校對及意見。


教育及青年發展局