서론

 

코퍼스는 언어학 연구를 위해 텍스트나 기타 언어 기록물 같은 수많은 자연 발생적 언어들로 이루어진 집합체다. 최근에는 수많은 코포라들을 전자적으로 접근하고 저장하여 보존하고 있다. 특히 컴퓨터의 발달로 수많은 언어 관련 정보들을 수집하고 입력하고 저장을 한 후, 언어학적으로 전산을 이용하여 목적에 따라 텍스트 집합체를 선별하고 설계할 수 있다. 코퍼스 소프트웨어는 언어들의 집합들을 다양한 종류로 재배열 할 수 있다.

코퍼스 소프트웨어를 통해 여러 코포라들을 비교 및 분석 할 수 있다. 각 코포라에서 사용하는 단어 빈도수를 배열하고 그에 따라 각 샘플들의 빈도 단어에서 내용의 깊이, 일반적인 코포라와 전공 특색을 가진 코포라 사이에서 드러나는 언어 빈도 특징, 발화와 작성문 사이에서 일상어와 비일상어 빈도 차이를 알 수 있다. 이러한 빈도의 차이를 활용하여 문법적으로 코퍼스 조사를 통해 상황 및 용도에 따른 일상과 비일상 언어를 판단, 단어 사용 위치, 단어를 어떻게 사용하느냐에 따른 문장의 반전 혹은 수정 발생가능성 또는 강조 역할을 코포라에 따라 빈도차이를 통해 분석 할 수 있다. 또한 코퍼스 소프트웨어를 통해 사회 문화 혹은 텍스트 작성 용도에 따라 해당 코포라의 특성을 논의할 수 있다. 종류에 따른 코포라들의 비교를 통해 빈도 이유와 그 단어 특징들을 분석하여 추측가능하기 때문이다. 컴퓨터를 통한 상대적 빈도들을 단어 뿐 아니라, 언어 유형의 범주를 각 코포라에서 수집하고 비교 분석하여 해당 코포라의 특징 역시 논의할 수 있다.

코포라 검색을 통한 교육적인 활용 방안은 수, 규칙, 나열 이 세 가지 항목을 중심으로 한다. 코퍼스 프로그램은 용어 색인을 통해 맥락에서의 단어 또는 구를 나열하고 규칙을 발견 할 수 있다. 영어 교사가 일선에서 학생들이 어법 사용에 대해 자주 설명 요청 받는 혼란 현상을 코퍼스 프로그램을 통해 방지 할 수 있다. 미묘한 의미의 양상과 차이에 대한 단어 사이에서의 어려움을 문법적으로 비교 판단 가능하기 때문이다. 소프트웨어에서 많은 증거들을 수놓으면서 이러한 소스를 활용해 직관적으로 어려운 용법으로부터 관찰 가능케 한다.

프로그램이 지닌 용어색인을 산출하여 집합체 리스트를 통계 처리하는 과정은 인간 관찰자 보다 컴퓨터가 정확하게 작동한다. 이를 통해 수많은 코포라에서의 방대한 데이터 샘플을 용어 색인에 의해 유사 정보들인 연어 리스트로서 제공한다. 연어는 어휘 항목의 한 쌍으로, 또는 어휘 단어와 특정된 단어가 문장에서 같이 나타나는 관습적 결합관계로 명시한다. 다양한 어구 연쇄들이 의미를 포함하여 이러한 연어에 의해 나타난다.

오늘날 코포라는 광범위하게 사용된다. 상이한 특징들의 상대도수를 측정할 수 있어 기표의 의미 연쇄작용을 미리 포착할 수 있다. 그리고 언어들과 비교하고 미묘한 용법들을 관찰할 수 있다. 번역자들에게도 코퍼스 프로그램은 과거 번역했던 단어들과 구들을 어떻게 번역했는지 병렬 코퍼스로 보고 이용 가능하며 두 언어들에서 동등하게 번역 사용하는데 있어 비교 코퍼스로 사용할 수 있다. 또한 일반 코포라는 빈도와 용법의 규범을 개인 텍스트에서 측정한 할 수 있는 것과 대비한다. 코포라는 언어를 통해 표현되는 문화 태도들을 조사 할 수 있으며 비판적인 담론 연구들에 자원으로서 사용된다.

코퍼스에는 특수 목적을 위해 설계되어 있으며 코퍼스의 형태는 그 목적에 따라 결정된다. 코퍼스의 형태에는 전문 코퍼스, 일반 코퍼스, 비교 코포라, 병렬 코포라, 학습자 코퍼스, 교육용 코퍼스, 역사적 코퍼스, 감시 코퍼스가 있다. 전문 코퍼스는 신문과 논문처럼 특수 형태의 텍스트로 되어 있다. 연구자들이 조사하기 원하는 언어의 종류를 반영하여 그들만의 전문화된 코포라를 수집한다. 전문성이 포함된 정도는 제한이 없지만 한도는 포함되는 텍스트의 종류에 제한되어 있다. 일반 코퍼스는 문어와 구어 또는 둘 다 포함되어 있으면서 한 세기 또는 여러 세기를 중심으로 설정 할 수 있어 다양한 형태로 텍스트가 구성되어 있다. 따라서 그 방대한 구성과 종류 때문에 참조 코퍼스라고 불린다. 비교 코퍼스는 둘 또는 더 많은 다른 언어의 코포라 또는 한 언어에서의 여러 가지 다양성을 가지는 여러 코포라로 구성한다. 학습자와 번역가들에게 각 언어의 본질적 차이성과 유사성을 알도록 한다. 병렬 코퍼스는 서로 다른 언어들로 구성된 여러 코포라들이 각기 다른 테스트에 서로 번역되거나 둘 또는 그 이상의 언어들로 동시에 번역 된 것을 말한다. 이는 번역자와 학습자에게 잠재적으로 동일한 것과 다른 것을 다른 언어로부터 찾을 수 있다. 학습자 코퍼스는 학습자에 의해 생성된 텍스트 집합체를 말한다. 이 코퍼스의 목적은 원어민의 언어로부터 각자 학습자가 어떻게 다른 양상으로 드러나는지 알 수 있다. 교육용 코퍼스는 학습자가 노출되어진 모든 언어들을 대상으로 구성한다. 연구자 또는 교사의 결정 및 동의로 수집된다면 모든 교육과정에서의 책 테이프, 학습자가 사용했던 모든 텍스트를 구성 가능하다. 이를 통해 학습자가 사용한 언어를 확인하고 비교할 수 있다. 역사 코퍼스는 오랜 시간 언어의 발달 양상을 추적하는데 사용한다. 감시 코퍼스는 한 언어에서 매일, 매주, 매달, 매년 변화들을 추적한다.

코포라에서는 기술적 용어들을 사용하고 있는데 type, token, hapax, lemma, word-form, tag, parse and annotate 가 있다. token은 띄어쓰기 또는 구두점으로 나뉘어 구분되어있는 어구의 개수를 말한다. 그리고 중복된 것을 제외한 순수 어구 개수를 type이라고 지칭한다. 여기에 단 한번밖에 사용하지 않는 어구를 hapaxes 라고 한다. 그리고 코포라를 추출 시 발생하는 단위의 한 형태를 word-form 이라고 하며 이 word form을 묶어 공통 집단을 만드는 어휘소를 lemma 라고 한다. tag는 코퍼스가 정보를 자동적으로 빠르고 반복적으로 수집하는 과정에서 정확성을 부여하기 위해 자동 혹은 수동으로 코퍼스 내부의 단어 코드를 부착하는 것을 발한다. 단어의 애매함을 최소화하기 위한 작업이다. parse는 절과 구에서의 텍스트 구성 성분을 분석하는 것을 말한다. 단일 코퍼스에서 상이한 구조 체계의 수를 정확하게 세는 데 사용할 수 있다. annotationtagging parsing 의 상위 조건으로, 한 코퍼스를 형성하는 데 사용하기 위해 정보의 다른 종류를 추가한다.

코포라가 필요한 이유는, 교육 현장에서 학습자들이 잘 사용하지 못하고 놓치는 연음, 자주 사용하는 문법과 단어, 사용하는 구에 대한 의미론적 운율과 화용적 의미 인지 그리고 상세한 어법 사용처를 확인 할 수 있다. 따라서 코포라는 언어학 연구에 상당히 기여하는 바가 크다. 하지만 코포라의 언어학적 활용에서 한계 역시 지니고 있다. 코퍼스는 정보에 대해서 가능한지 가능하지 않은지에 대해 제공해 주지 않으며 빈도가 많냐 그렇지 않느냐에 대한 것만 제공한다. 그리고 코퍼스는 자기가 스스로 소유한 저장 내용을 벗어나지 못하기 때문에 데이터에 대한 추론만 가능하다. 또한 코퍼스는 증거는 제공해줄 수 있지만 정보를 줄 수는 없다. 왜냐하면 코퍼스는 연구자에게 해석할 수 있는 직관적 지식이 풍부한 예제들만 제공하기 때문이다. 그리고 결정적으로 코퍼스 연구는 오직 텍스트에서의 맥락 밖을 벗어 날 수 없다.

끊임없는 하드웨어와 소프트웨어의 발전은 이러한 코퍼스의 단점 역시 반전 시킬 수 있는 가능성의 여지가 있다. 예컨대 이미 대중화 되어있는 사운드 to 문자, 이미지 to 동영상 검색, 이미지 to 이미지 검색은 앞으로 코퍼스 소프트웨어의 혁신을 불러일으킬 것이며 영어 교육 학습에 있어서 문자 이상으로 소리, 발음, 영상 및 영어권 문화 검색에 큰 도움이 될 것으로 기대한다.

요약 문헌 : Hunston, Susan. Corpora in applied linguistics. Ernst Klett Sprachen, 2002. 1-24

by 정치적무의식 2015.01.14 09:42