( 위 배너는 구글 애드센스 입니다. )

Assessment Concepts and Issues

박형락

평가는 현재 교육현장에서 잘 사용하고 있고 때로는 오해하는 용어이다. 평가는 사람의 능력 규모 또는 레벨을 측정하거나 견적내리는 것이다. 교육 현장에서 평가는 광범위한 평가 기술을 포함하여 계속 진행되는 것을 말한다. 즉 교사는 수업시간에 학생들과 끊임없이 언어능력을 평가하고 측정하여 거기에 맞는 교육 방법을 펼쳐 학생에게 교육을 하는 것이다. 결국 교육 현장에서 평가는 내재적으로 혹은 즉각적으로 교사가 학생에게 계속해서 이뤄진다. 시험은 평가의 일부분에 속한다. 시험에서 시험을 치는 학생은 측정되어지고 평가되어지는 반응자다. 주어진 범위 안에서 자신의 지식과 행동과 능력을 최대한 이끌어 내어서 시험을 치고 측정된다. 이러한 시험의 준비와 과정과 결과는 명시적으로 모든 요소들이 도출된다. 구체적인 능력뿐 아니라 다양한 능숙도도 시험의 측정을 통해서 명시적으로 결과가 드러난다. 시험의 대상은 개인이며 개인의 능력과 지식과 행동이 결과에 특정한 요소로 반영된다. 이러한 결과는 일반적인 개인의 능력이라 할 수 있다. 그러나 시험으로부터 도출된 결과의 일반적인 능력에는 학습된 일부분의 영역에서 그친다.

측정은 교실에서 학습자의 관찰된 행위를 양적인 측면에서 도출되는 과정이라 할 수 있다. 양적인 결과로부터 도출된 측정값은 다른 비교 대상과 비교하기 쉽다. 감정평가는 측정과는 다른 개념을 지니고 있다. 감정평가는 시험이 필수적이지 않다. 감정평가는 오히려 시험 결과의 해석을 위한 정보라고 할 수 있다. 따라서 시험을 통해 그 결과를 측정하고, 그 측정에 대한 결과를 해석하는 것이 감정평가이다.

평가에는 비공식 평가와 공식 평가로 나뉜다. 비공식 평가는 수업 현장에서 끝없이 시행된다. 하지만 이러한 평가가 수업에서 학생의 능력에 공식적인 지표가 되지 않는다. 교사는 학생들을 수업에서 비공식 평가를 시행하지만 그것이 학생의 언어능력에 대해 잘하는 지, 못하는 지를 결정 짓는 것은 아니다. 반면 공식 평가는 비공식 평가와 달리 학생의 언어 지식과 기술에 대하여 절차적이고 구체적으로 설계되어 있다. 그래서 공식 평가는 마치 학교에서 중간고사와 기말고사를 통한 정규 시험을 생각하게 한다. 그러나 꼭 그렇지 않다. 교사가 수업시간에 체계적으로 설계를 하여 언어 연습을 학생들에게 시행 할 때 체계적인 기준으로 교사가 관찰하여 학생을 평가한다면 그것 역시 공식 평가라 할 수 있다.

총괄평가는 수업 과정이 모두 끝나고 학생들의 언어능력을 측정하는 평가다. 학생들은 이 총괄평가를 통해서 그동안의 과정으로부터 배운 내용을 돌아보고 과정에서 요구한 학습 목표를 성취 했는지를 평가 받는다. 따라서 총괄평가를 통해 학생들이 다음 언어 학습에 있어서 상위 과정으로 가는 인지적 발판은 될 수 있을지 몰라도 다음 과정에 필수적인 시험으로 나아가게 한다는 평가의 목적은 없다. 형성평가는 학생들의 언어 능력과 기술들을 계속해서 성장시키는데 도움을 주는 평가다. 이러한 형성 평가는 과정 중간 중간에 계속 시행된다. 그리고 피드백을 교사는 학생들에게 제공하여 학습에 도움을 주게 한다. 총괄평가와 형성평가는 서로 대립되는 평가는 아니다. 형성평가가 계속되면서 점점 총괄평가로 이어지게 교사는 설계하기 때문이다.

규준 참조 평가는 상대 평가 방식이며 준거 참조 평가는 절대 평가 방식이다. 규준 참조 평가는 시험을 학생들에게 치른 후 그 결과 점수를 통해 평균 점수, 중앙값, 표준 편차, 백분위 점수를 산출한다. 이러한 산출 값은 즉 시험을 친 학생들의 점수를 가지고 순위가 매겨지고 그것을 통해 평가를 하는 것이다. 준거 참조 평가는 시험을 설계 할 때 평가 기준이 절대적임을 말한다. 즉 시험을 친 학생의 점수를 채점하는 전문가가 정해 놓은 기준에 도달하는 가에 그리고 그 도달에 따른 언어 능력을 기준에 따라 평가 한다. 따라서 시험 친 사람에게 피드백을 제공해 줄 수 있다.

학업 성취도 시험은 학습 과정의 마지막에 치는 시험이라 종종 총괄평가로 취급한다. 또한 수업 과정 부분에 학습자들의 행동에 대한 피드백을 제공하기 때문에 형성평가로도 취급 할 수 있다. 따라서 학업 성취도 시험의 특징은 복합적이다. 학섭 성취도 시험은 수업, 단원, 과정의 목표를 평가하며, 각 학습 목표들에 대한 성과들을 비교 평가하며, 시험 시간을 위한 기간이 있으며 형성적 피드백으로서 가치가 있다.

진단 시험은 수업 강좌에서 학생들이 발달하는 것에 필요한 언어 양상들을 진단하는 역할을 한다. 성취도 시험과 진단 시험과의 차이점이라면, 성취도 시험은 학습 과정을 끝내고 나서 시험을 치는 것이고 진단 시험은 앞으로 미래에 학습하게 된 언어 학습 과정을 위해 학생들의 언어 능력에 관한 정보를 끌어내기 위해 시험을 치는 것이다. 그래서 진단 시험은 학습자의 언어 능력을 다양한 방면의 요소들을 끌어내어 평가해야 하기에 구체적인 내용을 지닌다.

배치 시험은 학교에서 혹은 교육 기관에서 학생들이 지닌 특정한 수준을 알아내어 그 수준에 맞는 학습 과정으로 배치시키기 위해 치는 시험이다. 따라서 학생들의 다양한 언어 능력 요소들을 진단해야 하기 때문에 시험에서 다양한 유형과 방식의 시험을 학생들에게 치루게 한다. 그러나 이러한 시험은 비용과 시험 결과를 도출해내는 속도에 따른 문제가 발생하기에 간단하게 배치 시험을 시행한다. 배치 시험은 결국 학생의 언어 능력 수준을 판별하는 목적 때문에 교사는 이 배치 시험의 결과를 활용하여 시험을 친 해당 학생의 언어 능력을 진단하기도 한다.

능력 시험은 하나의 강좌 과정을 위한 시험이 아니다. 즉 어떤 목표 언어 능력에 대해 전 범위적으로 치루는 시험이다. 그래서 대부분 능력 시험은 규준 참조 평가이자 총괄 평가의 성향이 있다. 언어 능력을 평가하는 시험이기에 공신력이 있어야 하며 상업적이다. 그 이유는 출제자 들이 비용과 시간을 시험의 문제를 만들기 위해 사용하기 때문이다. 또한 능력 시험을 활용하여 특정 강좌에 학생들이 수강 신청 하는 것을 제한하는 역할을 한다. 이러한 목적 때문에 능력 시험은 학생들에게 피드백을 제공하지 않는다.

적성 시험은 학습 과정을 거치기 전에 외국어에 대한 일반적인 능력을 측정하도록 설계된 시험이다. 적성 시험에는 단순히 언어 능력에 대한 평가만이 아니라 청각, 시각, 기억 같은 다양한 능력을 측정한다. 이를 통해 나온 결과는 학생들이 언어를 학습하는데 있어서 어떤 유형의 수업과 자신의 능력이 유리하고 약한지를 알 수 있게 한다. 그리하여 학생은 교사로부터 언어 학습하는데 있어 전략적인 학습을 할 수 있다.

언어 평가의 전반적인 경향은 언어 교수법과 함께 했다. 분리 평가는 언어의 네가지 기능으로 나누거나 더 세부적으로 나눠서 평가를 구체화 시켰다. 이는 오늘날 외국어 능력평가 시험과 유사하다. 이러한 시험은 객관적으로 세분화된 언어 능력을 측정할 수 있는 이점이 있다. 하지만 실질적으로 의사소통 능력 평가를 측정하기에는 한계가 있다. 이는 측정이론 구조주의 접근법과 관련이 있다.

언어 교육이 급속도로 의사소통적 방향으로 이동하면서 분리 평가에 대한 비판이 생겼다. 그리고 통합적 접근법이 대두되었다. 통합적 접근법은 의사소통, 실제성, 대화의 맥락를 강조했다. 그리학여 평가도 통합적 시험을 지향했다. 대표적인 시험 방법으로는 완성형 독해검사와 받아쓰기가 있다. 이는 단일 언어 능력 가설과 관계가 있다.

행동 중심 평가는 의사소통 중심 교수법에 대한 연구가 대두되고 이에따른 의사소통 언어 시험에 대해 연구를 하면서 그 영향으로 등장했다. 평가도 의사소통을 하는 과정에서 시행되어 종래의 종이에 필기구로 적어 평가하는 방식을 벗어나 실제 세계에서 대화하고 행동하는 과정을 중심에 집중하게 되었다. 단지 수험자가 혼자서 평가받는 것부터 조별 활동, 상호작용이 있는 과업 중심 활동 등 통합적인 언어 기능을 교사가 하게 된다. 그러나 이러한 방법은 시간과 비용이 많이 소모 된다. 또한 이러한 평가는 형식적 시험과 비형식적 시험을 구분하기 어렵다. 평가의 요소에는 상호작용이 포함되어 있기 때문에 주로 과업 중심의 평가가 이뤄진다

기술이 발달하면서 컴퓨터가 등장하게 되고 이를 평가에 활용하는 시도가 지금 계속 이어져 오고 있다. 컴퓨터는 다양한 양의 평가 방식을 보유할 수 있고, 컴퓨터 적응 시험처럼 지능적으로 수험자의 정보와 성향을 시험 안에서 빠른 속도로 판단하여 실시간으로 평가에 반영할 수 있다. 그리고 평가가 사람과는 달리 방대한 양을 표준화 시킬 수 있다. 또한 사후 평가에서 객관적인 통계 분석을 이끌어 낸다. 종래에는 제한적인 시험 방식을 컴퓨터에 적용시켰으나 최근에는 구두 시험, 쓰기 시험도 평가가 가능해졌다. 코퍼스 언어학이 발달하면서 좀더 원어민과 가까운 그리고 다양한 언어 능력 영역에서 좀 더 복잡한 설계의 시험 문항을 제공 할 수 있다. 상기한 대로 컴퓨터 적응 시험이 있게 되면서 표준적이면서도 실제적이고 수험자 개인에 맞는 문항 설계와 그에 따른 평가를 실시간으로 인간이 할 수 없는 복합적인 요소와 행동을 반영하여 처리가 가능하지만, 아직까지는 보안 문제, 기술적 한계, 돌발 상황, 인간과의 의사소통 능력 문제, 개방적인 문항에 대한 체점, 과업 중심 활동에 따른 타당성에 대한 문제가 남아 있다. 앞으로 컴퓨터 기반 시험은 컴퓨터 기저 언어 시험으로써 의사소통 기반의 교수법과 시험에 활용 할 수 있도록 하는 하는 방향으로 발달 할 것이다.

평가의 모든 부분을 컴퓨터가 지금은 해줄 수 없겠지만 언젠가는 컴퓨터 인공지능이 계속 발전하여 그것을 대체 줄 것이라고 믿는다. 좀 더 복잡하고 정교함을 요구하는 평가에 컴퓨터 인공지능을 활용한 평가 방법은 훗날 더욱 요구될 것이다. 따라서 교육 분야에서도 컴퓨터 소프트웨어 연구는 필요하다고 생각한다. 내수 시장이 탄탄하지 못한 한국에서는 이러한 개발이 불가능에 가깝지만 관련 기업의 해외 투자와 인수 또는 합병으로 이러한 인공지능 사업에 뛰어들어야 할 것이다. 이를 위해서는 교육 관련 기업들이 더 크게 성장할 수 있어야 한다. 교육 관련 기업의 성장을 위해서는 국가뿐 아니라 대학에서도 공동 연구가 절실하다고 생각한다. 현재 국내 교육 관련 주는 재교육이나 단기교육에 가까운 기업들이 대부분이다. 의료처럼 연구기업이 활성화 되기 위한 고민이 필요할 것이다.

 

요약문헌

Brown, H. D. (2004). Language assessment: Principles and classroom practices. New York: Pearson/Longman. 1-24.


( 아래 배너는 구글 애드센스 입니다. )


'Education > English' 카테고리의 다른 글

Tests for Young Learners  (0) 2016.11.10
Principles of Language Assessment  (0) 2016.11.04
Assessment Concepts and Issues  (0) 2016.11.02
Developing Test Items  (0) 2016.10.29
7단원. 시험 개발의 단계  (0) 2016.10.19
Key Issues in Testing  (0) 2016.10.08
by 정치적무의식 2016.11.02 03:42