뭔가 비슷한거 같긴한데 뭐가 다른거임?....
 
"오뎅", "어묵", "뎀뿌라"   우리가 일반적인 생활하면서도
 뭔가 비슷한거 같긴한데 용어가 다른게 있다.
 (뎀뿌라는 '튀김'이라는 뜻이긴 하지만  갓튀겨 만든 수제오뎅을 울동네에서 '뎀뿌라'라고 팔았다;;)

최근 인터넷/컴퓨터의 발달로 짜집기 레포트나 논문같은 과제물들의
제출이 늘어가면서 이런것을 검출하기위한 제품을 찾는 회사나 학교들도 많아진다.
그래서 다양한 솔루션 제품들이 쏟아지는데...

"이런저런 말들로 우리제품이 최고임! 원츄!..." 하고 광고하는데 그 전에
저 세가지 차이점을 알아두면 좋다.

근데 사실 이 경계면은 모호하고...생각하는 사람에 따라서는 또 달라질지도 모르겠다.



중복문서?! .... '중복'에 종이먹는 그런거임?

중복이라고 해서 삼계탕부터 떠올린 사람은 없었을꺼라 믿는다 ;;;;
중복문서라고 하는건 "copy본"이라고 보면된다.
짜집기 수준이 아닌 통으로 베낀것이라고 할까?
인터넷에선 이런 중복문서들이 매우 많다.

Why?
블로그에서의 "퍼오기","스크랩" 기능이 있기 때문이다. (펌질이라고 하지요)
이런경우는 본문이 똑같기 때문에 결과를 보여줄때 문제가 된다.
그래서, 중복문서는 일반적으로는 어떤 문서대 문서의 비교를 한다기 보다는....
클러스터링형태로 묶거나 중복된 내용을 빼고 결과를 노출하는 그런 요구가 많은 편이다.



유사문서 vs 표절문서

옆의 사진은 ...   씨엘의 눈, 제시카의턱, 신민아의 보조개, 유이의 허벅지, 이효리의피부색 ...의 가상인물(?!)

얼마나 문서가 유사하냐... 문서를 표절했냐...? 둘의 차이가 뭘까?
뭔가 와닿지 않는다. 하지만 본인은 국문학과 출신이 아니라 프돌이(프로그래머?!)입장이기 때문에
컴퓨터의 기계적인 기술적 접근으로 생각한다면 다음과 같다.

유사문서 : 의미형태소의 비율이 얼마나 비슷한가
표절문서 : 얼마나 copy&paste 해서 짜집기 했느냐

※ 의미형태소 : ~을 ~를 ~ 로 같은 조사같은 의미상 불필요한 음절을 뺀, 명사 위주의 단어라고 생각하면 편함.

뭔소리냐면...기계적인 시스템을 기준으로 했을때...
왼쪽에 있는 그림과 같이 짜집기한것이 "표절문서"에 속하고
장혁과 정우성이 비슷한데? 이런건 "유사문서"에 속한다고 보면된다.

이 설명만  들어서는 왠지.. 유사문서가 왠지 더 좋아보인다.
하지만 아래 이어서 설명하겠지만 유사문서에는 맹점이 있다.


그러면 레포트표절입장 검출에서보면...
어떤 문서 (중복문서/유사문서/표절문서)를 기준으로 검출해야 좋을까?



레포트표절시스템에서의 유사문서/표절문서 ?

<유사문서>
위에서 말한것만 보면 유사문서가 왠지더 스마트해 보인다.
하지만 이런 예를 보자.

문서A: 민철이는 떡볶이좋아해요 그렇지만 없어서  에서 울고 있습니다.

문서B : 민철이는 에 있는 것을 좋아해요 절약되죠 근데 떡볶이가 없어서 울고 있어요.

뭔가 국문학적인 재능이 없어서 그런지 내용이 이상하지만...아무튼
볼드처리된 의미형태소만 보면 유사문서로 뽑히지만,
내용을 읽어보면 연계성이 좀 떨어진다.

특히 레포트에서는 같은 주제를 기준으로 과제가 작성되기 때문에
의미형태소를 뽑다보면 유사한 단어들의 조합이 나올수 밖에 없습니다.

이런 맹점은 주의해야 합니다.


<복제문서,짜집기>
실제 학교에서 레포트 낼때 안걸리려고 많이 하는게 뭐죠?
제 경험상 A,B숙제를 빌려서 A의 한문장 B의 한문장 이런식으로
섞고 순서 바꾸고 그런걸 더 많이 합니다. (한마디로...짜집기 죠)

이런 문장단위로 구분해서 비교를 하게되면 짜집기에 대한 검출이 가능합니다. (이를 '복제문서'라고 지칭하죠)

이 경우는
의미같은 약간은 주관적일수 있는 것보다 문장의 포함관계에 대해  찾기때문에
학생들에게 해당 내용을 베꼈다는것은 해당 문장을 줄쳐서 보여주면 명확하다.
(문장들을 조합해서 베꼈다고 가정한걸 표절이라고 정의하자면...)



여기서 잠깐...명확성...??? 그건 왜??

기계적인 시스템에서 명확하다고 이야기 하는건 중요하다. (왜냐면... 기술적인것보다 사용자의 접근에서)
예를 들어볼까?

[복제문서라면? 짜집기라면?]
너의 레포트 3번째줄 문장과, 홍길동 레포트의 10번째  문장은 같아..
그리고 2페이지 3째줄 문장과, 홍길동 레포트의 1번째 문장이 같지.
그래서 표절로 의심되어 감점을 했다.

라고하면 학생도 발뺌하기 어렵다.
왜냐면 문장단위라 눈으로 확 와닿는다.

유사문서 형태로 형태소 관계로 표출한다면 학생에게 이렇게 설명할것이다.
근데 학생이 근데 납득이 될까? (사실 저런 분석자체도 거의 불가하다 내부 알고리즘을 다 설명해야할테니)
[유사문서라면? 형태소문석이라면?]
너는 레포트에 "컴퓨터"라는 단어가 100개 쓰였고, 홍길동 학생도 "컴퓨터"라는 단어를  100개 쓰였어
그리고 다른 단어들이 비중을 봐도 ... 너와의 퍼센트를 보자면 .... @#$@#$@#$
이래서 표절로 의심되어 감점을 했다.

학생들은 갸우뚱거릴꺼다.

명확하다는건 사용자도 납득이 가능한 수준이어야 한다.
이건 기술적인것 보다는... 사용성적인 입장이다.



마치며
사실 인간의 창작활동이라고 볼 수있는걸 기계적인 접근으로 할 경우
분류는 어떻게 되고 복제레포트검출엔 어떻게 이용될까?
마구잡이로 적다보니 사실 내용만 길어진거 같다.

가장 중요한건... 인간이 작성한 문서를 기계적으로 점수를 내다보면 한계가 있다는것이다.
이건 배경에 당연히 가지고 있어야 할 사항이고...
대신 어떤 방법이 더 적절할까? 에 대해서는 고민이 필요하겠다.



Ps. 좀더 상세한 예를 들어 설명하고 싶지만... 그 범위는 제품설명이 될까봐 skip...

+ Recent posts