2008. 10. 11. 00:28
사용자 삽입 이미지
오늘 모든 뉴스에서 저명한 저널인 nature의 저널의 홈피 뉴스에서 논문표절에 대한 예를 들면서 특히 우리나라의 표절논문을 인용하여 보도하였다고 난리였다. 뉴스에서는 그 시스템에 대해서 내용은 나오지 않아 호기심에서 논문표절검색시스템을 한번 이용해봤다.


우선 논문표절검색시스템에 대해서.....

이전에는 생의학분야의 표절논문을 찾을때는 주로 pubmed를 이용하여 일정한 키워드를 삽입후에 나타는 화면에서 "related articles"이라는 기능을 이용하여 수동으로 하나씩 확인하는 매우 지루한 작업이었다. 이것을 특별한 알고리듬을 이용하여 인터넷의 검색엔진처럼 하나의 검색시스템으로 만든것이 'eTBLAST'라는 검색엔진이다.
아마도 미국의 오클라호마시의 UT Southwestern Medical Center에 있는 Harold R. Garner교수팀에서 2001년부터 서비스가 시작되었던 것 같다.
사용자 삽입 이미지
(생의학분야에서 세계도처의 저널을 검색할때 보통 쓰는 검색엔진인 Pubmed. 보통은 단어로 이루어진 키워드를 가지고 논문 검색을 한다. 논문을 찾으면 보통 그 옆에 related articles이라는 항목이 붙으며 연관된 여러 논문들이 같이 딸려나온다.)

사용자 삽입 이미지
(eTBLAST의 검색엔진. Pubmed와는 달리 문장전체를 네모칸에 삽입하여 비슷한 문장이 있는지 확인한다.)

특이한 점은 보통 pubmed를 이용할때는 일정한 단어인 keyword를 사용하여 검색하는데, eTBLAST는 문장 전체를 입력하여 유사한 정도를 조사한다는 것이다. 이렇게 조사하여 표절논문의 가능성이 있는 논문을 데이터베이스화한것이 'Deja vu'라는 시스템이다.
이 Deja vu라는 데이타베이스에는 표절이 의심되는 논문을 여러 항목으로 나누어서 데이터를 보관하고 있는데, 각각 DISTINCT,DUPLICATE, ERRATUM, SANCTIONED, NO ABSTRACT, UNVERIFIED 등등의 항목이다.
이중 표절이라고 강력히 의심되는 것이 DUPLICATED라는 항목인데 뉴스에서 떠들어대는 것도 이 항목을 가지고 말하는 것이다.

오늘날짜로 DUPLICATE항목에 속해있는 표절논문수는 183개로 나와 있으며 평균 85%의 문장이 유사하다고 밝히고 있으며 약 1/4은 거의 100%가 문장이 똑같다고 한다.
Deja vu라는 데이터베이스를 보니 가장 똑같은 논문으로는 심장학분야인데 이탈리아에서 나온 논문을 인도에서 거의 그대로 표절했다고 한다. Deja vu에서 환산한 표절지수도 0.97로 거의 동일하였다. eTBLAST의 Garner교수팀은 한 논문에서 표절지수가 약 0.56이상이면 표절이 의심되는 경우라고 하였다. (근데 Deja vu내에 있는 DUPLICATE항목의 표절논문의 가장 낮은 표절지수는 0.13이다.....???)
사용자 삽입 이미지
(DUPLICATE항목에서 가장 비슷한 논문으로 발표된 표절논문. 파란색으로 색깔칠해진것이 초록이 서로 같은 경우인데, 보니 거의 대부분 색깔이 칠해져 있다. 내가 봐도 ....와 이건 정말 표절이다...라고 할정도로....)

뉴스에 나온 우리나라 모 대학의 교수님의 표절논문은 Deja vu의 표절지수가 0.73으로 순위가 약 33번째로 확인되었다. 그외 뉴스에서 보면 다른 교수님 세분이 더 확인되었다고 한다. 근데 Nature지에서 가장 표절지수가 높은 인도쪽의 표절논문을 언급하지 않고 왜 우30번째 바깥에 있는 우리나라 표절논문을 기사로 언급했는지는 좀 의아한 감이 있다.
사용자 삽입 이미지
(우리나라 모교수님이 언급된 표절논문, 표절지수가 약 0.73으로 그래도 꽤 높은 표절지수를 보이고 있다.)

하여간, eTBLAST를 한번 사용해보고자 해서 나의 SCI 첫번째 논문의 초록을 한번 이용하여 검색해보았다. Pubmed에서 나의 첫번째 SCI 논문의 영문초록을 복사하여 input 창에다가 삽입하였다. 10초씩 찾는다는 확인이 있으면서 계속 화면이 refresh 되다가 약 2분정도 지나니까 결과가 나왔다.
사용자 삽입 이미지
(나의 첫번째 SCI초록을 삽입하여 비슷한 논문을 찾고 있는 화면. 10초마다 계속 홈페이지가 refresh되면서 찾고 있다. 약 2분 걸렸다.)

결과를 보니 정확히 나의 논문을 지적하고 가장 같은 논문이라고 빨간글로 표시를 하였으며, 자기네들이 환산한 표절점수도 165점으로 매우 높았다. 그외 나머지 논문들은 자기네들이 환산한 표절점수가 25점미만으로 표시되었다.
사용자 삽입 이미지 사용자 삽입 이미지
(왼쪽 그림에서 빨간박스로 줄쳐진 것이 나의 SCI 논문. 가장 비슷한 표절논문으로 검색엔진에서는 인정하였다. 당연한결과지. 그 논문의 초록으로 검색한것이니까....그리고 이 논문이 여성요실금의 수술기법에 대한 논문인데 이 논문과 비슷한 논문들이 언제쯤 가장 많이 발표되었는지 왼쪽 그림에서 그래프로 보여주기까지 한다. 이 수술은 1999년도에 개발되었기 때문에 이때부터 급격하게 관련된 논문이 증가하는 것을 볼수 있다.)


최근에 한 SCI 저널에 논문 하나가 받아들여졌는데, 거기서 날라온 E-mail의 내용중의 한 문장이 기억에 남았다. "It is assumed that the material contained in this manuscript has not been previously published elsewhere."라는 문장인데 혹시 이 저널에서도 eTBLAST로 나의 논문을 확인해봤다는 뜻인지는 잘 모르겠다.

그러나 한가지 반론은 있을 수 있다. Nature의 홈페이지에도 안내되어 있듯이, 터키에서 표절논문으로 지목된 교수의 반론 편지가 소개되어 있는데, 내용을 잠시 훑어보자면...
SCI 저널은 영어로 써야 하는데, 영어를 모국어로 쓰지 않는 사람들의 입장에서는 다른사람의 영어논문에서 적절한 문장을 빌려올수 밖에 없고, 나머지 실험데이터는 모두 우리가 직접 실험한 것이므로 더 나은 영어표현을 위해 문장만 빌려오는 것은 표절이 아니다라고 강변하고 있다.

나역시 영어논문을 써본 사람의 입장으로서 위의 항변에 어느정도 공감은 하는 편이다.

하여간 인터넷이 발전하고 점점 더 세계화가 되면서, 있어서는 안되겠지만 앞으로는 eTBLAST라는 표절논문검색시스템때문에 표절을 사실상 불가능하게 될 것 같다.

*참고사이트
eTBLAST 홈페이지
표절논문에 대한 내용을 보도한 Nature지의 홈페이지
Deja vu의 데이터베이스중에 DUPLICATE항목
터기의 한교수가 표절논문에 대한 입장을 밝힌 Nature지의 글
*참고논문
Errami M, et al. eTBLAST: a web server to identify expert reviewers, appropriate journals and similar publications. Nucleic Acids Research 2007;35:W12-15.
Posted by 두빵