易伯华托福保分班_托福培训班_北京托福培训机构_TOEFL培训

易伯华托福保分班_托福培训班_北京托福培训机构_TOEFL培训

当前位置: 主页 > 托福口语 >

托福口语自动评分系统Speech Rater准确性不高

时间:2019-07-18 17:52来源:易伯华教育 作者:李老师 点击:
托福口语自动评分系统Speech Rater先天的问题,简单来说就是上梁不正下梁歪! 首先我们来看ETS官方公布的,托福口语自动评分系统,与人工评分的相关性,是在0.81. 说实话,单纯的拿这

托福口语自动评分系统Speech Rater先天的问题,简单来说就是上梁不正下梁歪!

 

首先我们来看ETS官方公布的,托福口语自动评分系统,与人工评分的相关性,是在0.81.

说实话,单纯的拿这么一个系数摆在我们的面前,我们是没有感觉的,这个系数到底是高还是低,我们根本就无从比较。但是实际上我们是有一个非常重要的参照系的,这个就是托福作文的自动评分系统e-Rater。

 

其实考过托福的无花果都知道有一件事情,就是托福口语和作文,作为托福考试的主观题,其实是可以申请复议的,也就是你认为考官的评分有问题,确定真实的成绩要么是太高,要么是太低,那么你就可以申请复议。

 

当你申请复议之后,ETS会重新安排资深考官,对于你的口语或者作文分数进行打分,当然他不会知道你原来的分数,独立对于你的分数进行评分。如果复议之后,这个分数波动的多,那就说明他们评分的一致性比较低,如果复议之后,这个分数波动的比较小,那么就说明他们评分的一致性比较高。

 

而易伯华易老师曾经做过复议成功率的统计,托福作文复议的成功率,提分的10%,降分的10%,不变的占80%。而托福口语复议的成功率,提分的20%,降分的20%,不变的占60%。

 

这就意味着托福口语,本身的评分的稳定性,其实都不如托福作文评分的稳定性,不同的考官或者说自身的考官,有可能跟新手考官的评分是不一样的。而托福作文评分的稳定性就比较好,哪怕进行复议之后大多数情况下,复议出来的分数与原来的分数其实是一致的。

 

这就意味着,整个托福口语自动评分系统Speech Rater,他们评分的根基,也就是ETS口语的分数评分标准稳定性,相比于托福作文来说,本身就不好。当然这个不是说托福口语,是一个非常差的评分体系,其实从世界上两大语言考试托福和雅思来说,托福口语和作文的整个评分的稳定性,其实是远好于雅思的口语和作文的。

 

雅思口语和作文就是因为评分的稳定性不高,人为因素影响太大,评分的高低与考官的自身素质,有极大的关联关系。中国大陆的所有雅思考场组织的相对较好,考官素质比较高,相对稳定,但是东南亚的很多考官,以及海外的很多考场组织的不是很严密,考官水平也是参差不齐。因此有很多中国的考生到海外进行雅思考试,就是为了钻这个空子,其他国家的考官给一个更高的分数。而且哪怕是中国内部的雅思考官,在私下讨论的时候也经常,对于相同的案例,大家给出的分数是不一样的。也就是在组织相对较好的中国,雅思口语和作文评分的稳定性,其实都不及托福考试口语和作文评分的稳定性。

 

因此在这里我们说托福的稳定性不好,是相比于托福作文评分的稳定性不够好,但是比雅思口语和作文评分的稳定性是要更高的。接下来我们回头再来说托福口语评分的问题。

 

在这里面我们已经非常清楚,托福口语评分的稳定性,本来就不及托福作文评分的稳定性。那么我们应该知道托福作文在采用e-Rater自动评分之后,也仍然保留了人工评分,也就是机器e-Rater与人工同时进行评分,两者分数相同或者相近的话,就给出分数。如果机器和人工评分不一致或者差距比较大的话,则交给更有经验的评分官来进行评分。

 

换句话说也就是,在评分体系更稳定的托福作文当中,人工评分其实也参与到了每一个细节当中,而且最终的决定权也在人工手中。

 

那么托福口语本身评分的稳定性,就不如托福作文评分的稳定性,那么就说明托福口语自动评分系统,带来的不确定性其实就更大,如果直接用托福口语自动评分系统Speech Rater来进行评分的话,人工的不稳定性,再加上机器评分的不稳定性,那么偏差有可能就是非常大的,复议的成功率有可能会达到40%提升,40%下降,20%不变。

 

每名托福考生都交了1900块钱的考试费,每一个人的嘱托都非常重要,每一个成绩的公正性也非常重要,如果会产生这么大的偏差的话,ETS评分的公正性就不在了。因此在真正的使用当中,托福口语自动评分系统Speech Rater在10年之内都不可能掌握主要决定权,要知道托福作文自动评分系统,在易伯华易老师于2009年爆出来之后,直到10年后的今天都仍然是要有人工参与评分。那么托福口语自动评分系统,在接下来的10年之内,其实都只是人工评分的一个陪衬或者说背景,而不可能当成一个主角。

 

而且我们要考虑到一个非常重要的考试场景的问题,托福作文评分比较容易公正,因为考官看到的,就是一个又一个的字母所组成的作文,不会有其他的影响因素。但是托福口语可能出现的影响因素非常多,比如说托福考场楼上装修,会带来非常大的噪音,比如说托福考场里有人高声唱歌,也会带来非常大的噪音,比如说托福考生不小心把话筒没有摆在嘴边,那么声音的捕捉就会非常差,这也就是为什么,托福考试在进行之前要先进行试音,适应不好是不能进行考试的。但是哪怕进行了试音之后,很多托福考生,也会不经意间的减小自己的音量。

 

就是易伯华易老师所说的,装修的噪音,考场的噪音,话筒不小心摆错位置,这些对于人工考官来说,其实有可能都可以勉强接受。但是对于托福口语自动评分系统,这个电脑系统来说,大量的噪音和声音变小,他们其实是无法接受的。会使整个系统完全瘫痪,因此从实际应用的角度来说,托福口语自动评分系统Speech Rater会受到非常大的挑战。

 

因此这一套托福口语自动评分系统Speech Rater,从展示ETS自身的科技实力上来说,是非常有价值的,但是从实用的角度来说,每一名考生的1900块钱考试费,都是必须尊重的,与人工评分0.81的相关性,1000名考生就有可能有,100名上下考生出问题,哪一名考生愿意自己出现问题呢?而且全中国一共6000个托福考位,每次有可能有600名托福考生出问题,你说NEEA是否会接受自己的托福热线被打爆呢?

 

因此在接下来的10年之内,这套托福口语自动评分系统Speech Rater,很有可能会短时间内进入评分体系当中,但是在10年之内,托福口语分数,最终的决定权其实还是由人工来决定的,而不是这套系统所决定的。

 

而这套托福口语自动评分系统,已经被引入国内,各位无花果玩一玩是可以的,但是对成绩太认真就是你的不对了。

(责任编辑:李老师)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
推荐内容