리포트 베끼다 들통 > 부모 서바이벌가이드

본문 바로가기
사이트 내 전체검색

부모 서바이벌가이드


 

리포트 베끼다 들통

페이지 정보

작성자 princeton 댓글 0건 조회 1,308회 작성일 10-08-22 19:31

본문

인터넷을 뒤져보면 대학생들을 위한 리포트 구매 사이트가 넘쳐난다. 요즘엔 초등학생을 위한 숙제 대행 사이트까지 등장했다. 그렇다고 다른 사람의 글을 베꼈는지 알아보기 위해 그 많은 리포트들을 일일이 대조해볼 수도 없는 일. 하지만 글에도 저자가 누구인지 말해주는 지문(指紋)이 남아 있다. 최근 국내 연구자가 문장에 나오는 단어들이 얼마나 자주 사용되는지를 통계로 분석해 저자가 누구인지 판별할 수 있음을 입증했다.

◆단어 등장하는 빈도로 저자 확인
1996년 2월 미국에서 '프라이머리 컬러스(Primary Colors·삼원색)'라는 소설이 익명(匿名)으로 출판됐다. 소설에서는 클린턴 전 대통령과 비슷한 인물로 묘사된 남부지역의 주지사가 대통령 후보 지명을 위한 선거 캠페인 도중 도서관 여직원과 성관계를 갖는 장면이 나온다. 이 밖에도 클린턴 측근만이 알만한 내용들이 가공의 인물들을 통해 자세하게 묘사됐다.
사람들은 당장 누군가 클린턴을 잘 아는 사람이 소설을 썼을 것이라고 추정했다. 가장 먼저 의심받은 사람은 당시 뉴스위크지의 칼럼니스트인 조 클라인(Joe Klein). 그는 언론의 집중적인 취재에도 완강히 부인하다가 결국 손을 들고 말았다. 미 연방수사국(FBI)의 법언어학자인 도널드 포스터(Foster) 교수가 소설에 나오는 문장을 통계로 분석해 과거 클라인이 썼던 칼럼과 같은 형태임을 입증했기 때문이다.
고려대 민족문화연구원 한나래 박사는 같은 방법을 한국어에 처음으로 적용해 역시 저자 판별에 효과가 있음을 입증했다. 한 박사는 2006~2008년 조선일보에 실린 김대중·류근일·양상훈·김창균 등 4명의 칼럼니스트 글 중에 1인당 40편씩 총 160편을 분석해 93.7%의 저자 판별 성공률을 보였다고 밝혔다. 이번 연구 결과는 11일 서울대에서 열리는 '제20회 한글 및 한국어 정보처리 학술대회'에서 발표될 예정이다. 한 박사는 "4명의 칼럼니스트들은 모두 남성인 데다 주제와 내용에서 차이가 크지 않아 분석대상으로 삼았다"고 말했다. 실제로 몇몇 핵심단어를 추출해본 결과 4명 모두 거의 비슷한 빈도로 나타났다. 일단 칼럼의 모든 문장을 분해했다.
예를 들어 '아예 몸살을 앓았다.'라는 문장이 있다면 '아예+몸살+을+앓+았+다+.'는 식으로 명사와 동사·조사·어미·부호를 하나하나 분리했다. 이른바 '형태소(形態素·뜻을 가진 가장 작은 말의 단위)'별로 문장을 해부한 것이다. 다음으로는 해부한 형태소가 글에 나타나는 빈도를 조사했다. 예를 들어 '몸살'이라는 형태소가 100단어 중 몇 번이나 등장하는지 알아보는 식이다. 이를 저자가 판명돼 있는 다른 글과 비교해 형태소 빈도가 비슷한 분포를 나타내는 글들을 그 저자의 글로 판정했다. 분석 결과, 93.7%의 저자 판별 성공률을 보였다. 개인으로 보면 김대중(97.2%)·류근일(96.2%)·김창균(83.7%)·양상훈(81.2%) 칼럼니스트 순이었다.

◆영어보다 한국어 판별률 높아
영어권에서는 이처럼 단어의 빈도를 통계로 처리해 저자를 판별하는 연구가 오래전부터 있었다. 미국에서는 조 클라인 사례 외에도 19세기 미국 독립을 주장한 내용의 익명 칼럼 저자를 같은 방법으로 확인해 화제가 된 적이 있다. 최근 영국에서는 텔레그래프지에 기고하는 칼럼니스트 40명의 칼럼 160편을 분석한 예도 있다. 하지만 영어에서는 판별 성공률이 이번 연구에 비해 낮은 89%에 그쳤다. 한 박사는 "확실하게 결론을 내리기는 힘들지만, 실험 결과는 한국어가 개인의 문체(文體) 차이를 영어보다 더 많이 반영하는 언어임을 어느 정도 시사한다"고 말했다. 분석기술에서도 장점이 있다.
단어가 판별의 중요한 단위 역할을 하는 영어와는 달리, 한국어의 저자 판별에는 형태소 분석 기술이 결정적인 역할을 한다. 한국어는 영어와 달리 명사와 조사가 한 단어로 붙어 있기 때문이다. 인터넷 검색을 '우리나라'로 하더라도 '우리나라는, 우리나라에'처럼 조사가 붙어있는 다양한 형태를 다 찾아야 한다. 덕분에 형태소 분석에 대한 한국어의 자연언어 처리 기술이 일찌감치 발달했다는 것. 한 박사는 "앞으로 더 많은 글을 분석해 분석대상 수를 늘려나갈 것"이라며 "실용적으로는 학생들의 과제물 진위 여부 등을 판단하는 데 쓰일 수 있을 것"이라고 말했다. 매번 같은 글을 베껴 쓸 수도 없으니 이젠 남의 리포트를 베껴 제출하는 것도 어렵게 됐다.

댓글목록

등록된 댓글이 없습니다.