Corpora in applied linguistics by Susan Hunston (3) 요약

2015. 1. 16. 21:25Education/English

반응형

3. 용어 색인 해석하기

 

코퍼스 프로그램에서의 결과와 이에 따른 해석방법은 일반적인 통계 자료와는 다르게 직관적이다. 물론 변수가 없는 것은 아니지만 그 변수를 차단하기 위해 여러 패턴을 가지고 검색자가 습득한 통계를 실시간으로 추스르고 다시 검토할 수 있다. 이는 일반적인 통계 수집 방법보다 단순하면서 오류를 줄일 수 있다. 따라서 대부분의 코퍼스 사용자는 용어색인과 그에 대한 해석에 더욱 의존한다. 이는 교육적으로 상당수의 통계적 접근보다 더 직관적인 데이터 결과 값이 프로그램을 통해 나오기 때문에, 언어를 가르치고 번역하는데 코퍼스가 도움이 된다. 다시 말해 직관적인 데이터를 통한 해석은 코퍼스를 통한 결론 도출에 영향을 끼친다. 어떻게 수많은 데이터를 검색에 적용 시키고 용어 색인으로부터 어떻게 관찰하는지 알아야 한다. 또한 단순한 용어 색인보다 더 많은 맥락으로부터 정보를 얻고 그 조사를 이용하는가에 대해 살펴봐야 한다.

코퍼스 프로그램은 컴퓨터 스크린에 있는 수많은 단어와 구들의 예시들을 표현하며 선택되어진 단어와 구들을 검색한다. 이러한 단어들 전후로 해서 전후 앞뒤에 예시들이 놓여진다. 컴퓨터 스크린 중앙에 노드라고 알려진 선택된 단어가 배치된다. 코퍼스 사용자는 단어를 검색한 후 나오는 결과물에 대해 여러 가지 방법으로 알파벳 정렬이 가능하다. 또한 사용자는 일부 단어에 진하게 표시 할 수 있다. 이를 통해 선택된 단어가 어떤 문법 구조를 갖고 어떤 단어와 뉘앙스를 많이 사용하는지 판별할 수 있으며 다시 진하게 표시를 사용자는 할 수 있다. 또한 복잡하고 여러 조건을 동시에 검색 사용자가 코퍼스 프로그램을 통해 제시 할 수 있다. 이 역시 사용자는 결과물에 대해 강조와 정렬이 가능하다. 이러한 여러 복잡한 조건을 검색하면 사용자가 연구하려고 하는 단어 또는 구에서 사용되는 문법 체계와 의미와 뉘앙스를 쉽게 알 수 있다.

코포라는 부정적 증거를 제시하지 않음으로서 무엇이 결과 값에 따른 해석이 가능한지 불가능한지 결정한 지를 결정할 수 없다. 오류를 범한 일부 화자의 언어 표현이 포함되어 있는 것에 대한 사용 가능성도 측정을 할 수 없다. 이는 옳고 그름 사이에 구분하는 조건이 없어서다. 이렇게 원어민이 따라 할 수 없는 구분하기 힘든 정보를 코퍼스 프로그램은 제공가능 한데, 이를 가리켜 ‘typical’ 그리고 ‘central’ 용법이라고 한다. ‘typical’은 개별 어휘 또는 개별 구에서의 자주 표현되는 의미, 연음 또는 어법을 설명하는데 주로 사용한다. ‘centrality’는 개별 단어보다 범주로서 적용될 수 있다. 단어를 단정적이고 한정적으로 범주화로 적용하는 것을 말한다. ‘prototypical’은 일반적으로 전형성을 가진 용법이지만 그렇다고 매우 자주 사용하는 의미로서의 정형성이 아닌 것을 말한다. , 자주 발화하는 양식은 아니지만 전형적인 양식인 것이다.

많은 단어들이 비슷한 의미들을 지니고 있음에도 불구하고 다른 단어들 중 하나가 완전히 대체할 수는 없다. 단어를 비교 보다 독립적으로 다루는 사전들은 어느 정도 이러한 부분에 도움을 줄 수 있다. 그러나 사전은 ‘semi-grammatical’ 같이 일반적인 의미를 수반한 단어 집단들을 각자 비슷한 의미의 단어와 조건들로 정의 내리는 경향이 있다. 따라서 각자 단어들이 쓰이는 강도와 용법 차이를 구분하기를 사전에서는 힘들다. 유사 동의어의 전형적 용법 관찰은 비슷한 의미를 명확하게 구별 지을 수 있도록 조사 가능하다.

보통 발화나 작성에서 패턴과 어법에 의해 단어들의 의미가 대부분 구별된다. 물론 애매모호할 지라도 문맥에 아주 연관되어 단어의 의미의 예시들로부터 문장이나 절에서 구 정보를 담고 있는 주제를 드러낼 수 있어서다. 코퍼스에서는 여러 예들이 있는 용어 색인들을 각자 의미끼리 수집하여 여러 세트로 나눈다. 그리고 이러한 결과물을 통해 의미와 패턴을 각 세트들 사이에서 발견하고 세트들 끼리 구분할 수 있는 가능성을 코퍼스 프로그램에서 찾는다. 의미를 지닌 각 세트들을 다른 단어에서 가지고 있는 비슷한 의미의 세트들과 다시 합쳐 비슷한 의미의 단어들끼리 범주화 할 수 있다. 패턴과 어법을 코퍼스 프로그램에서 활용할 수 있는데, 첫 번째와 세 번째 단어가 고정되어 있으면서 중간에 있는 단어를 삭제한 패턴을 검색하여 찾는 방법이다. 이에 따른 결과는 기존의 세 쌍의 단어 조합보다 패턴이 더 다양해지면서 교육용으로 좋은 활용이 될 가능성이 있다. 그리고 패턴을 가진 문장에 또 다른 패턴을 찾고 다시 그 패턴에 다시 관련 패턴을 찾아내는 관찰도 있다.

코포라 크기가 커지면서 생기는 문제 중 하나는 용어 색인들의 유형에 해석 가능한 다량의 데이터 산출이다. 코퍼스 유저는 대략 일반 패턴 100 라인, 상세 패턴 30라인을 보고 조사를 하는데, 이런 경우 조사 중에 있는 단어가 소수 라인으로 패턴을 분석하다가 모든 패턴이 보이지 않을 것이다. 그래서 30개의 임의 라인을 코퍼스 프로그램을 통해 추출하고 만약 거기에 가설 패턴이 보이지 않는 다면, 추가로 다른 30개 라인을 추출을 더 이상 새로운 패턴이 생기지 않을 때 까지 계속 해야 한다. 또 다른 방법으로는 임의 라인을 추출한 뒤, 원하지 않는 패턴을 삭제하면서 조사자는 가설을 하나씩 설정해 나가면서 결론까지 도출하는 방법이 있다. 다양한 패턴을 지닌 단어들의 경우 다량의 코퍼스 데이터 산출시 다양한 결과로 드러날 수밖에 없다. 이럴 경우 찾는 키워드 전 또는 후 지점의 단어를 추가하거나 문법을 바탕으로 하는 조건을 기반으로 검색을 한다. 그리고 검색자가 생각하고 의도하는 것에 대한 조건을 모아 다음 검색 시 패턴들을 정제할 수 있다.

때때로 용어 색인 보다 더 방대한 맥락에서 패턴을 찾을 일이 있다. 이는 감지하기 힘든 심오한 의미와 용법을 관찰할 때 발생한다. 만약 미묘한 의미를 담고 있는 단어 또는 구를 사용할 때 단순 패턴과 라인 보다는 전후 맥락의 예가 필요하며, 전후 맥락을 통한 예가 조사자의 가설과 일치 하지 않을 수 있거나 패턴과는 다른 전혀 다른 의미를 발견할 수 있다. 따라서 반박 예를 조사자는 항상 염두 해 두어야 하며 그 예가 가설에 대해 수정이 가해지거나 가설을 지원할 수 있다. 또한 방대한 정보를 이용하여 인간의 마음을 쉽고 다르게 불러일으킬 수 없는 표현과 단어의 묶음들을 찾아 검색이 가능하다. 문법 체계를 통해 주로 사용하는 표현 단어들을 검색에 나오게끔 유도를 하여 인간의 사회적, 심리적, 정신적 성향을 언어학적으로 증명 또는 행동패턴을 파악 할 수 있다. 그리고 이러한 방법으로 다양한 표현을 사용하는데 도움을 줄 수 있다.

단순히 학습자에게 필요한 직관적 데이터를 활용한 교육방법을 코퍼스 프로그램 활용에 따라 뛰어 넘을 수 있을 것으로 기대된다. 특히 인간을 언어를 통해 분석함에 있어서 좀더 학습자가 현지인들을 이해 접근 가능성이 생기기 때문이다. 물론 직관적인 데이터를 통해 학습자에게 영어 및 문화 학습을 제시한다고 해서 EFL의 한계를 넘을 수 없다. 그러나 부수적으로 학습자들에게 낯선 타자를 받아들이는 과정에서 좀 더 틈을 벌리게 하는 좋은 기회가 될 것이다.

 

Hunston, Susan. Corpora in applied linguistics. Ernst Klett Sprachen, 2002. 38-66

반응형