Key Issues in Testing

2016. 10. 8. 05:03Education/English

반응형

Key Issues in Testing

박형락

 

1. 타당도

타당도는 시험 내용이 정확하게 목표하는 것으로 다가갈수록 높아진다. 읽기, 유창성, 문법성 같은 이론적 구성을 측정하기 위해 언어 시험이 있다. 타당도를 형성하는 것에는 몇몇 증거들이 있다. 이러한 증거에는 여러 가지 형태를 띤다.

내용 타당도는 시험의 내용과 관련이 있다. 시험의 내용에 언어 기능과 구조가 있을 때 내용 타당도를 갖는다고 한다. 그리고 그 구조를 중심으로 적합한 예시가 시험에 포함되어 있어야 한다. 상위 단계와 중간 단계 학습자가 가지고 있는 문법 구조는 성취도 시험에서 다를 수 있다. 이는 출제자와 관련이 없는 사람이면서 평가에 익숙한 사람이 테스트를 해야 한다. 이러한 내용 타당성은 타당도가 높을수록 시험에서 원하는 측정에 도달 할 수 있다. 그리고 나쁜 역류 효과를 줄인다. 따라서 내용 타당도는 시험 개발 중에 검토 된다.

준거 관련 타당도는 신뢰성이 높은 평가 결과와 목표 시험 결과가 일치하는가를 본다. 준거 관련 타당도에는 공인 타당도와 예언 타당도로 나뉜다. 공인 타당도는 시험과 준거가 동시에 시행될 때 설립된다. 이 둘의 유사성은 상관계수로 만들어 낸다. 두 수가 일치하면 상관계수는 1, 일치하지 않으면 상관계수는 0이 된다. 이러한 타당도는 시험의 목적과 그 결과가 일치해야 하는 중요성이 높은 시험에서 활용된다. 예언 타당도는 능숙도 시험처럼 학생이 시험을 통해 앞으로의 수행 여부를 측정한다. 비율, 환경, 그 밖의 변수를 기준으로 잡고 시험결과를 평가한다.

구인 타당도는 가설된 언어 능력 이론의 몇몇 하위 기질에 대한 타당도다. 이는 경험적인 연구를 통해 실제 측정을 설립한다. 즉 실제 시험이 정확히 목표에 맞게 설정이 되어 있느냐다. 간접 평가에서 구인 관련 채점 이후 다른 구인간의 점수를 비교하여 그 타당도를 확인 할 수 있다. 그리고 또 다른 방법으로는 학생이 시험을 치는 동안에 무엇을 하는지를 소리 내어 말하기와 회고로 수집하는 것이 있다. 소리 내어 말하기는 학생이 문제를 풀 때 자신의 생각을 말한다. 회고는 학생이 문제를 풀면서 어떤 생각을 했는지 시도한다. 소리 내어 말하기는 녹음을 사용하고 회고는 녹음과 설문지를 사용한다. 소리 내어 말하기의 문제는 학생이 문제를 풀 때 말을 해야 하는 것이기 때문에 문제풀이에 방해가 된다. 회고는 문제 풀이 이후에 학생이 응답하는 것이기 때문에 기억을 못하거나 잊어먹을 수 있다.

채점 타당도는 시험에서 채점 하는 것에 대한 타당도를 조사하는 방법이다. 한 문제에 여러 가지 언어 능력을 채점할 때 측정에 대한 정확성이 떨어지기 때문이다. 안면 타당도는 평가에서 어떤 언어능력을 측정하고자 하는 것을 그대로 측정한다고 드러나는 가를 말한다. 안면 타당도를 통해 시험에 대한 일반인들의 평가 하고자 하는 언어 능력 평가의 공신력이 제대로 전달된다.

시험을 더욱 타당하게 제작하려면 교사는 측정하고자 하는 구인의 모든 것들을 고려하여 구체적으로 써야한다. 그리고 평가에 그것들이 포함되어 있는지 확인해야 한다. 그리고 가능하면 직접적 평가를 시행하고 간접적 평가를 시행할 시 공인된 간접적 시험 방법이 사용된 것을 확인 해봐야 한다. 또한 응답에 대한 채점과 관련지어 봐야한다. 끝으로 신뢰도 있는 시험을 만들 수 있도록 모든 작업을 해야 한다.

진정성 있고 누구에게나 인정받을 만한 언어 능력 평가를 제작하기에는 너무 어려울 거 같다. 특히 현장의 교사들은 말이다. 왜냐하면 이러한 타당도를 평가에 검증하기에는 노력을 떠나 제한된 시간과 비용이 들어가는 작업이기 때문이다. 결국 최대한 논란이 일어나지 않았던 유형과 난이도를 중심으로 만들 수밖에 없다. 참신하고 언어 능력 평가를 좀 더 진정성 있도록 공신력 있고 전문가 집단 수준의 언어 능력 평가기관의 도움이 필요하지 않을까 생각한다. 현실적으로 생각한다면 높은 타당도를 확보하기 위해서는 최대한 다양하게 직접적 평가를 현장에서 시행하는 것이 좋다고 생각한다. 그리고 직접적 평가 제작에 대한 노력을 최소화하기 위해 많은 교육 연구자들이 개발하여 교사들을 도와줄 필요가 있다.

 

2. 신뢰도

평가를 하는데 있어 어떤 환경과 어떤 시간에서 치르더라도 일정하게 그 결과가 유지된다면 신뢰도가 높다고 말할 수 있다.

신뢰도는 신뢰도 계수로 수치로써 가능하다. 시험 결과에 따라 결정되는 요소들이 중요해 지면 질수록 신뢰도 역시 중요해진다. 신뢰도 계수를 비교하고 수치화하려면 두 개 이상의 점수가 있어야 한다. 쉽게 얻는 법은 같은 시험을 두 번 치루는 것이다. 시험-재시험 방법이라고 한다. 그런데 이러한 방법은 처음에 학생이 시험을 치고 다시 치게 되면 그 기간이 짧을 때 똑같은 응답을 쉽게 하여 신뢰도가 높게 형성되고 그 기간이 길면 학습했던 것을 까먹어 버려 신뢰도가 낮아진다. 그리고 시험을 똑같이 두 번 친다는 것은 학생들에게 학습 동기를 상실하게 할 것이다. 따라서 부정적일 수 있다. 그래서 같은 시험이지만 형태는 다른 시험을 학생에게 제공해야 한다. 반분법은 한 시험에 한번 쳐서 비교 세트를 구하는 방법이다. 이 방법은 내적 일관 계수를 제공한다. 학생들은 시험을 치게 되면서 나오는 점수는 실제 점수와는 다를 수 있다. 그래서 교사가 얻은 데이터는 두 개가 되며 그 두 개를 비교하는 것이다.

시험을 통해 나온 학생의 점수가 다른 상황에서 얻게 되는 점수와 가까운 지는 알 수 없다. 그러나 확률 통계를 이용하여 진짜 점수에 가까운 점수를 측정 표준 오차를 내어 그 범위의 평균으로 예측할 수 있다. 이는 시험을 반복적으로 친다고 가정 하에 나오는 통계적 확률의 예측 점수다. 문항 반응 이론을 통해 추정가능하다. 준거 지향 평가와 같은 준거에 따라 학생의 성취도를 측정한다면, 이 경우의 일관성 측정을 신뢰도 보다는 결정 일관성이라고 불린다. 교사는 자신이 만든 평가지의 신뢰도에 신경을 써야한다. 왜냐하면 한국에서 시험은 곧 대학 수시에 직결되기 때문이다. 내신이 중요해지고 수시가 중요해지고 있다. 비록 전문가 집단인 교사가 만드는 평가지이지만 과연 수능보다 학생들의 언어 능력을 다른 경쟁 상대인 학교들의 평가지와 비교하여 공정하고 신뢰할 만한 평가지를 제시하고 있는지에 대해 의문이 든다. 채점자 신뢰도는 특히 수행평가에서 크게 흔들릴 것이라 예상된다. 교사의 주관성이 들어가게 되거나 컨디션에 따라 학생들의 운명이 좌지우지하기 때문이다.

시험에서 좀 더 신뢰할만하게 만들려면 충분한 행동의 샘플을 수집해야하고 학습 능력이 뛰어난 학생과 그러지 않은 학생을 식별할 수 없는 항목을 배제하며 수험자들을 철저하게 통제하며 애매한 문항을 작성해서는 안 된다. 그리고 분명하고 외재적인 지시들을 제공하며 시험 문제 구성과 글자체를 고려해야하며 평가 기술과 형태에 수험자가 익숙해서는 안 된다. 시험 조건은 학생들에게 일관되고 시험에 적합한 환경을 제공해야 한다. 시험의 신뢰도와 채점자의 신뢰도를 높이기 위해 효율적인 방법에는 객관식 문항을 사용하는 방법이 있다. 채점할 시 신뢰도를 높이려면, 구체적인 채점 기준을 제공하고 가능한 한 수험자들끼리 직접 비교를 하고 채점자를 신뢰도 높일 수 있도록 훈련시켜야 한다. 채점 점수를 합의 하는 방법은 채점자의 신뢰도를 올리는데 도움이 된다. 수험자를 이름 보다 번호로 식별하여 객관성을 높이고 다수의 평가자가 독립적인 채점을 한다면 서로 비교하면서 합의를 하여 공정하고 객관적인 채점이 이루어 질 것이다.

앞서 언급했다시피 한국의 일선 학교에서 내신에 대한 평가를 대학 입시에 적용하는 것은 무리가 있다고 주장했다. 각 과목의 중간고사와 기말고사는 교육공무원이라는 직책의 교사가 신뢰도와 타당도를 안전하게 적용하여 예상되는 문제를 최소화 하고자 한 산물이다. 그러면 학생의 집안 환경에 따른 변수는 피할 수 없더라도 이른바 빅 데이터를 가지고 있는 학생이 다른 학생보다 언어 시험에 유리하다. , 통제와 문제 패턴의 측면에서 신뢰도가 낮아지게 되는 것이다. 특히 내신은 범위가 제한적이기 때문에 문제 형태가 정해지면 목표 언어만 학습하면 된다는 점이 문제다. 다른 규모가 큰 시험하고 내신 문제하고는 이야기가 다르다. 그리고 수행평가 역시 마찬가지다. 교사의 능력이 다르고 개성문화 역시 다르다. 전국에서 시행되는 수행평가 활동도 서로 다르다. 대학 입시가 전국의 학생을 대상으로 하는데 각 학교의 교과서, 활동, 교수활동의 차이를 어떻게 신뢰하여 수행평가를 진행해야 하는 가에 대한 문제가 발생한다. 1명이 목표 대학을 진학함으로써 수많은 학생들이 포기해야할 꿈들이 많이 생긴다. 이런 민감한 사안에 개인의 비극보다 다수의 통계로서 교육의 본질을 살리는 취지는 이상적이다. 전국 학교 수행평가를 대상으로 그 평가가 신뢰한지 타당한지 감사와 처벌이 국가 선에 힘들 다면, 국가가 전국 단위의 수행평가 지침과 기준에서 끝나는게 아니라 평가지 설계까지 마련하고 전국 교사들에게 제시해야 할 필요가 있다.

 

요약문헌

Hughes, A. (2003). Testing for language teachers. Cambridge: Cambridge University Press. 26-52.


반응형