빅보카 허위과장 표시광고 고발

By | 2021-06-08

요약

신영준씨가 만들고 로크미디어에서 2016. 7.22 출간한 영어단어장 <빅보카>를 허위・과장 표시・광고로 고발합니다.  출판사와 저자는 책의 소개말, 띠지, 서문, 언론 인터뷰, 소셜미디어 광고를 통해 아래와 같이 선전해왔습니다

  • 저자 자신이 11억 빅데이터를 통계적으로 분석해 2만, 다시 이를 8천 단어로 추려 완벽한 우선순위 완성 
  • 구글 Ngram Viewer를 통해 2008년 기준 700만권으로 철저히 우선순위 검증
  • 최근 5년간 수능 영어 어휘 99%이상 일치

독자들은 ‘최초의 빅데이터 우선순위 단어장’인 점에 매료되어 구입, 주요 4개 서점 1위에 오르는 등 현재까지 10만부이상이 판매된 것으로 추정됩니다.  그러나 위의 세 가지 사실은 모두 허위・과장이었습니다.  8천단어의 <빅보카>는 그 전신인 <빅데이터 단어장>에 수록된 2만단어를 추리고 우선순위를 구글 엔그램으로 매긴 책입니다.

  • 저자가 직접 11억 빅데이터를 통계적으로 분석하지 않고 이미 수 만개로 정리된 Wiktionary Frequency Lists를 순서까지 그대로 자신이 한 것 처럼 도용했습니다. (97%일치)
  • 누적된 700만권이 아닌 2008년에 출간된 20만권의 데이터로만 검증하여 우선순위 신뢰도가 낮습니다
  • 2015년 수능 영어 예문 3개를 무작위 검증한 결과 88%, 95%, 94%로 99%에 도달하지 못하였습니다

결론적으로 소비자는 철저히 기만당했고 출판사와 저자는 허위과장 표시와 광고로 십 수 억원대의 부당이득을 올렸습니다.  저자는 11억개의 데이터 모수와 8천개의 단어를 추출하는 단계적 과정과 700만권의 데이터를 이용한 우선순위 검증방법을 과학적으로 해명해야 할 것입니다.  만약, 출판사와 저자가 위에서 제기한 세 가지 문제에 대해 소명하지 못하고 허위과장 표시광고임이 드러난다면 소비자로서 다음과 같은 사항을 요구합니다.

  • <빅데이터 단어장>, <빅보카 Core>, <빅보카 Advanced> 세 권의 즉각적인 절판과 판매중단, 회수 
  • 출판사와 저자의 사과문 (그동안 광고/홍보를 개제했던 매체 전부에 대하여) 
  • 원하는 소비자들에 대한 즉각적인 환불 (영수증이나 판매기록, 또는 책의 실물 확인시)

허위・과장 표시 

출판사와 저자가 <빅보카>를 어떻게 소개하고 홍보했는지 살펴보겠습니다.  책에 표시된 내용과 인터넷 서점에서의 책소개,  인생공부와 같은 소셜미디어의 광고, 인플루언서의 추천, 언론과의 인터뷰 등으로 종합적으로 조명합니다.
먼저 책에 표시된 내용입니다. 먼저 책에 표시된 내용입니다. 아래는 책의 띠지내용 입니다. 

  • “11억개의 단어를 통계적으로 분석하여 완벽한 우선순위 완성”
  • “구글 Ngram Viewer를 통해 총 700만 권의 책에서 철저한 우선순위 검증” 
  • “수능 영어어휘 99%”

그리고 저자는 책의 서문에서 아래와 같이 얘기합니다 

  • 2만 4천권의 책에서 추려진 단어의 모수는 약 8억 개였다. ..(중략) .. TV 대본(script)과 다양한 자료에서 만들어진 단어 뭉치들과 합쳐서 단어 모집단을 11억 개로 늘렸다.
  • 11억 개 단어 모집단에서 우선순위 2만 단어를 추려냈다..(중략) 전부 표제어와 함께 묶었다. 그렇게 작업하니까 우리가 외워야 할 표제어는 8천개로 줄어들었다
  • 8000개로 추려진 단어를 일일이 Ngram viewer에 검색해서 2008년(검색이 가능한 가장 최근 연도) 기준으로 그 우선순위를 검증했다

누가 보아도 저자가 직접 모집단을 11억개로 늘려 그 중 2만 단어를 추려냈고, 이를 다시 8천개로 압축하여 700만 권의 데이터로 검증했음을 알 수 있습니다.  엔그램 뷰어 2008년도가 검색가능한 가장 최근 연도라 한 것으로 미루어 구글 엔그램의 버전이 2012년판임을 의미합니다  

아래는 인터넷 서점 ‘예스24’의 빅보카 책 소개입니다. 띠지의 내용과 다르지 않게 빅데이터로 만들었다는 것을 강조하고 있습니다.

저자는 중앙일보와의 인터뷰를(일본으로 수출하는 영단어장…『빅보카』저자 인터뷰, 중앙일보, 2016.10. 5 https://tong.joins.com/archives/33117)  통해 다음과 같이 얘기했습니다.

  • “제가 공학자잖아요. 빅데이터 즉, 통계에 기반했다니까요. 그런 영단어 학습서는 없더라고요”

자신이 직접 빅데이터와 통계를 기반으로한 최초의 영어단어 학습서를 만들었다고 위와같이 밝혔습니다.

신영준 저자와 <완벽한 공부법>, <일취월장>을 공동집필한 고영성씨는 자신의 페이스북 타임라인에서 2016년 7월 20일 아래와 같이 밝히며 빅보카를 ‘세계 최고의 단어장’이라 추천하고 있습니다.  이 글은 무려 3,900여회가 공유되며 높은 홍보효과를 누렸습니다.  (링크 : https://www.facebook.com/koyoungsung/posts/1158725044192555 )

  • “신영준 박사는 구텐베르크 프로젝트(2만 4천권의 책)에서 8억 개, TV 대본과 다양한 자료에서 3억 개의 단어 모집단(11억)을 지프처럼 분석했다. 신박사는 이 단어장를 완성하기 위해서 직장(삼성)을 때려쳤으며 3년 가까운 작업 끝에 우리가 꼭 외워야할 진정한 우선순위 단어 8천개를 뽑아냈다.”

고영성씨의 홍보 게시물 중간에 보이는 링크는 아래의 인생공부 카드뉴스로 이어집니다.  인생공부는 저자 신영준씨가 운영하는 페이스북 페이지로 당시 20만명의 팔로어를 가진 영향력있는 SNS였습니다.  이 카드뉴스 역시 5700회가 공유되며 네티즌들 사이에  화제를 모았습니다. 그 주요 내용을 살펴보겠습니다.

  • “수 많은 말뭉치(corpus)를 모으기 시작했다. 그렇게 단어를 무작위로 모아서 11억 개 단어 표본을 만들었고 분석하기 시작했다”
  • “11억 단어에서 고유명사와 고어, 비표준어를 제거하고 정리하는 시간만 꼬박 1년이 걸렸다. 긴 작업 끝에 통계기반 우선순위 2만 단어를 처음으로 뽑았다”
  • “8000개의 관련어취 포함 표제어가 700만권 기준에서 쓰인 총 빈도는 90%였다”
  • “최근 5개년 수능으로 평가했을 때 8000개의 표제어와 관련어휘에 포함되지 않는 단어는 1개 있었다. 포함률이 99%가 넘었다.”

참고로 네 번째 카드의 수능 영어시험지에 등장하는 ‘aromatherapy’는 aquaculture(수경재배)와 마찬가지로 <빅보카>에 등장하지 않는 단어입니다. 

위에서 소개한 문서와 게시물 보다 훨씬 더 많은 자료들이 존재하지만 내용은 대동소이합니다.  지금까지 소개한 문구를  모아 종합하면 출판사와 저자, 그리고 그가 운영하는 소셜매체에서 소비자에게 제시하는 사실은 다음과 같이 정리할 수 있습니다.  

  1. 저자가 직접 11억개의 빅데이터를 모아 통계분석해 2만 단어를 만든 후,  8천개로 추려 만들었다 
  2. 구글 Ngram Viewer  2008년기준 700만권으로 우선순위를 매겼고 총 빈도는 700만권의 90%였다
  3. 최근 5개년 수능에서 표제어・관련어휘를 망라해 한 단어를 제외한 99%이상 포함률을 보였다

소비자들의 반응과 성과 

<빅보카>는 다른 단어장과 달리 예문이 없다는 치명적인 단점이 있었지만 소비자들은 ‘빅데이터’와 ‘진정한 우선순위’로 만든 ‘최초의 빅데이터 단어장’이란 점에 더 의미를 부여했습니다.  <빅보카>를 구입한 어느 소비자도 자신의 리뷰를 통해  저자가 직접 11억 빅데이터를 분석하고, 700만권으로 우선순위를 부여한 점을 구매동기로 아래와 같이 밝히고 있습니다. (https://m.blog.naver.com/mitchum0321/220998282393

인터넷서점 예스24 구매자들의 리뷰에서도 구매 동기를 빅데이터와 최근 사용빈도수로 얘기하고 있습니다.  (http://www.yes24.com/Product/Goods/29317972?OzSrank=1)  

예스24 2016년 8월 월간 베스트셀러 14위,  9월 5위, 10월 31위, 교보문고 216년 연간 베스트셀러 38위에 오르는 등 국내 4대 주요서점에서 주간 베스트 1위를 모두 경험하고 10만부 이상을 판매하는 메가히트를 기록했습니다. 

<빅보카>의  탄생경위

2016년 7월 22일 Core와 Advanced 두 권으로 나누어 출간된 <빅보카>는 각각 4천 단어씩 총 8천 단어를 담고 있습니다.  <빅보카>는 16개월전인 2015년 3월 25일 출판사 ‘고운’을 통해 출간된 <빅데이터 단어장>에 수록된 2만 단어를 8천단어로 추려내고, 다시 우선순위를 정렬해 뜻과 발음기호를 추가해 낸 책입니다.  저자인 신영준씨는 자신의 페이스북을 통해 주기적으로 ‘단어장 작업 이야기’를 하며 이 사실을 확인 시켜주고 있습니다. 그는 <빅데이터 단어장>출간 3개월 후 ‘어휘 2만개를 만 개로 줄였다’고 밝혔습니다. <빅데이터 단어장>의 2만 단어를 지칭하는 것입니다.  그는 <빅보카>출간 3개월전인 2016년 4월 26일에 “구글 덕분에 표제어가 8500개에서 아마 7500개 정도로 줄지않을까 싶다”라고 본인의 페이스북에 밝혀 아직 8천개의 단어가 확정되지 않았음을 암시했습니다.  그는 이후 2016년 6월 18일에 “단어장 작업에 드디러 방점을 찍었습니다”라고 본인의 타임라인을 통해 얘기했습니다.  이를 종합할 때 <빅보카>는 새로운 단어뭉치 분석을 통해 얻어진 것이 아니라  <빅데이터 단어장>의 2만 단어를 추려냈다는 사실을 알 수 있습니다.  구글 엔그램뷰어를 본격적으로 사용한 것은 단어가 어느정도 추려지고 난 뒤인 2015년 하반기부터이며 뜻과 발음기호는 표제어가 대부분 정해진 2016년 5월부터 본격적으로 작업에 들어간 것으로 추정할 수 있습니다.

2015년 나온 <빅데이터 단어장>은 위의 사진 왼쪽하단과 같이 뜻은 없고 우선순위와 단어만 2만개가 나열된 단어장입니다.  이에 반해 이듬해 출간된 빅보카는 발음기호와 뜻을 달았습니다.  <빅보카>는 예문없는 단어장으로 비판받았지만 이러한 비판을 ‘빅데이터와 우선순위’로 극복하고 흥행에 성공합니다. 
<빅보카>에서 말하는 11억단어는 결국 <빅데이터 단어장>에서 비롯되었습니다.  저자는 <빅데이터 단어장>의 서문에서 11억 단어의 근거중 8억단어를  ‘www.wiktionary.org 의 Word Frequency Lists’라 밝혔습니다.  <빅보카>의 서문엔 이 사실이 누락되었습니다. 그런데 이 리스트는 1923년 이전의 책 2만 4천권에서 얻어져 현대에선 쓰지 않는 단어가 많고 문예체 위주라  역시 www.wiktionary.org에 수록된 2006년 TV Script 2천 9백만 단어를 보완해 2만 단어를 구성하였습니다.  이로 계산한다면 11억이 아닌 8억 2천 9백만 단어가 됩니다.

저자가 언급한 www.wiktionary.org는 세계 여러나라의 단어 우선순위 목록을 정리해 놓은 곳으로 누구나 회원가입 없이 접근할 수 있고 열람할 수 있습니다.

저자가 말한 구텐베르그  프로젝트 섹션엔 프로젝트의 간단한 성격과 함께 8억단어에서 이미 빈도별로 추출한 1~40,000개 단어의 리스트를 볼 수 있습니다.  통계의 기반이 되는 8억단어 모수의 기초데이터는 여기에서 구할 수 없었습니다.    

‘Wiktionary:Frequency lists/PG/2006/04/1-10000’  (https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists) 링크를 클릭해 조회하면 아래와 같이 순위, 단어, 빈도(10억개당) 순으로 단어 리스트 전체를 얻을 수 있습니다.  PDF와 같은 화일포맷으로 얻을 수도 있고 이를 그대로 엑셀로 읽어들일 수도 있습니다.  

프로젝트 구텐베르그 (이하  PG라 표시) 바로 위에 ‘TV and movie scripts’ 섹션이 있습니다. 저자가 서문에서 밝힌대로 2천 9백만 단어에서 추출했다고 나옵니다. 여기에서도 똑같이 단어 리스트가 4만개까지 제공됩니다. 그러나 마찬가지로 2천 9백만개의 원시데이터는 구할 수 없었습니다. 

‘Wiktionary:Frequency lists/TV/2006/1-1000’를 누르면 같은 형식으로 단어 리스트를 조회할 수 있습니다.  PG 리스트의 최빈도 단어가 the-of-and-to-in의 순서인데 반해 TV 스크립트 순위는 you-I or i-to-the-a or A로 상이합니다.  

<빅데이터 단어장>엔 등장하지 않았지만 <빅보카>서문에 등장한 또 다른 참조 사이트가 NGSL(New General Service List)입니다. (http://www.newgeneralservicelist.org)  3억개의 표본에서 추출한 3천개의 우선순위 단어를 가지고 있습니다.  저자가 얘기하는 11억 단어는 결국 PG의 8억단어와 NGSL의 3억단어의 합산을 의미하는 것으로 보입니다.  이 곳에서도 역시 3천 단어의 리스트를 엑셀포맷으로 제공하지만 3억단어의 원시데이터는 없습니다.  

NGSL 버전 1.01을 다운로드(http://www.newgeneralservicelist.org/s/NGSL-101-by-band-qq9o.xlsx) 받아보면 PG List보다 좀 더 구체적인 사항을 확인할 수 있습니다. 가장 큰 특징은 표제어구분입니다.  예를들어 be는 다양한 시제와 인칭을 모두 대변하는 표제어로 우선순위가 2위에 랭크되어 있습니다. PG List의 경우 was가 8위로 가장 순위가 높고 am(125위), is(13위), were(34위) 등이 각각 순위에 포진되어 있습니다.  저자가 <빅데이터 단어장>에서 NGSL 리스트를 활용했는지 알 수 없지만 (아마 활용했다면 11억 단어라고 했을 가능성이 높습니다) <빅보카>에선 참조용으로 사용했고 어쩌면 이 리스트에 있는 단어들을 포함시켰을 수도 있습니다.  

<빅보카> 의 8천단어가 <빅데이터 단어장>의 2만 단어에서 비롯되었다는 사실은 확실한 듯 보입니다. 그러나 그 2만 단어가 저자가 말한대로 11억개의 모집단에서 통계적으로 추출했는지는 확실하지 않습니다. 대신 저자가 언급한 사이트에 게시된, 이미 정제된 데이터를 기반으로 2만단어를 추출했을거란 의심이 더 합리적으로 보입니다.  이에 대해선 다음절인 ‘검증’에서 자세히 다루겠습니다.
저자가 2017년 자신의 타임라인을 통해 밝힌 <빅보카>작업의 후기로 미루어 <빅보카>에 수록된 8천 단어가 구글 엔그램뷰어에 의해 일일히 검증되고 다시 순위가 매겨졌다는 사실을 확인할 수 있습니다.  정확히는 Ngram 2012년판 (2008년까지 스캔된 책)으로 측정되었습니다. 아래의 그림에도 나타나듯. ‘race 0.0066’의 숫자는 2012년판 엔그램뷰어에서 Amecican English 2008년을 조회했을 때 나타나는 숫자입니다.  이 의미는 2008년에 출간된 책에 나오는 단어의 비중을 의미합니다. 참고로 Google Ngram에 수록된 2008년 발간된 책은 약 20만권입니다.  저자는 700만권을 기준으로 우선순위를 뽑아냈다고 했죠. 

저자는 책과 책 소개 그리고 광고를 통해 아래와 같이 주장하였지만 위에서 살펴본 대로 이는 허위과장일 가능성이 높습니다. 

  1. 저자가 직접 11억개의 빅데이터를 모아 통계분석해 2만 단어를 만든 후,  8천개로 추려 만들었다 
    • 진실 : 빅데이터 분석대신 기존 공개자료 리스트를 출처없이 무단도용해 짜깁기 했다. 
  2. 구글 Ngram Viewer  2008년기준 700만권으로 우선순위를 매겼고 총 빈도는 700만권의 90%였다
    • 진실 : 700만권의 누적 데이터가 아닌 2008년 20만 데이터로 검증했고 총 빈도 90%는 확인할 수 없다
  3. 최근 5개년 수능에서 표제어・관련어휘를 망라해 한 단어를 제외한 99%이상 포함률을 보였다
    • 진실 :  앞의 두 사실로 미루어 허구일 가능성이 높다 

다음에 이어지는 ‘검증’편에서 위의 세 가지 ‘허구일 가능성’을 집중 검증하겠습니다. 추가적으로 단어장 품질에 대한 아래와 같은 사실에 대해서도 분석하여 의견을 제시하도록 하겠습니다. 

  • 현대어가 잘 반영되었는지 
  • 표제어 작업이 적절했는지
  • 표제어로 묶은 후 우선순위에 반영했는지 
  • 2008년 엔그램만으로 우선순위를 매겨도 좋은지 

검증1 : 저자가 직접 빅데이터 11억에서 8천단어를 추출했다는 사실

검증의  첫번째는  ‘저자가 직접 11억개의 빅데이터를 모아 통계분석해 2만 단어를 만든 후,  8천개로 추려 만들었다’는 부분입니다.  <빅보카>는 <빅데이터 단어장>의 2만단어에서 8천단어로 간추려진 단어장입니다.  <빅데이터 단어장>은 쿠텐베르그 프로젝트의 결과물로 대중에 공개된 리스트를 그대로 베꼈습니다.  아래 그림의 왼쪽은 구텐베르그 프로젝트의 결과물이 담긴 ‘Wiktionary : Frequency lists 1~10000’입니다.  앞의 숫자가 순위, 뒤가 단어입니다.  그림 오른쪽은 <빅데이터 단어장>입니다. 양쪽의 1위부터 93위까지를 비교했습니다.  왼쪽의 파랗게 표시된 부분은 저자가 표제어 작업을 하면서 제거한 단어들입니다. 이들 단어를 제거하면 순서와 내용까지 완전히 일치합니다.  초반에 나오는 단어들은 우선순위 리스트마다 비슷하므로 리스트 중간의 단어들로 두 리스트를 비교해 보겠습니다.

왼쪽은 PG List 3127~3268위입니다. 오른쪽은 <빅데이터 단어장> 2203~2295위입니다. 역시 임의로 제거된 표제어를 제외하면 순서와 단어가 완벽하게 일치합니다.  저자는 PG List 30107 additive (빅데이터 단어장 20,000번째 단어)에 이르기 까지 PG List를 그대로 베껴 순서까지 동일하게 발음기호와 뜻, 예문도 없이 상업적으로 출판하였습니다. 여기엔 출처표시도 없었고 자신이 8억단어를 직접분석한 것 같이 말했습니다. 

아래 그림 왼쪽은 <PG List 1~10000>이고 오른쪽은 <빅데이터 단어장> 5000번을 전후한 그림입니다.  왼쪽 파란 부분은 신영준씨가 표제어로 묶어 제거한 단어들입니다. 그걸 빼면 두 리스트의 순서와 내용이 같죠. 그런데 오른쪽 리스트에서 노란 네모박스의 단어들이 나타납니다. 1923년 이전의 단어를 현대적으로 보완하기 위해 2006년 TV Script에서 삽입했다는 단어들이죠. (https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists/TV/2006/1-1000) 무려 14개가 과감하게(?) 추가됩니다. newly,jingle,glamorous,genetically,catalog,authentic,overprotective,genuinely, connecting, ultrasound, negotiating, microphone, hiking, doubting 이죠. 오른쪽 페이지에 보이는 77개 단어중 14개니 무려 18%나 되지만 현재의 페이지만 그렇고 대부분 후반부에 우선순위없이 임의로 추가되었습니다. <빅데이터단어장> 500위내에 새로 추가된 단어는 problem와 miss뿐입니다. 그나마 이들 단어는 <빅보카>를 만들때 11개가 사라지고 jingle, catalog, authentic의 3개만 남았습니다. 

PG List가 1923년 이전의 단어들만 모여있다보니 현시점의 영어와는 맞지 않았습니다. 그래서 저자는 모자란 현대의 단어를 추가하기로 결심하고 PG리스트 바로 위에 있던 TV Script List에서 그 단어들을 추출합니다. TV Script List는 2006년까지의 1,000편의 드라마와 영화에서 빈도순으로 추출한 단어리스트였습니다. 

아래 그림 중앙의 표는 일단 기존의 PG List와 비교해 TV Script List에만 존재하는 단어들을 나타낸 것입니다. 표의 왼쪽부터 순위, 단어, 2천9백만 단어중 빈도수입니다.  목록을 검토해보면 이름으로 쓰이는 단어나 명칭, 이니셜 등이 많아 클린징이 필요해 보이는 목록입니다.  저자는 이 리스트를 순서대로 검토하다 293위의 단어 problem을 <빅데이터 단어장>에 추가하기로 결심합니다. 이 단어의 빈도는 11,931회로 PG List에 들어간다면 표 오른쪽 숫자와 같이 5,409위에 삽입될만한 순위입니다. 하지만 PG List는 8억단어의 모집단에서 추출한 단어빈도였으므로 상호 밸런스에 문제가 생깁니다. 그래서 적당히 가중치를 주어 <빅데이터 단어장> 225위에 위치시킨것으로 보입니다. 307,506회의 빈도를 보인 form 다음이었습니다.다음으론 miss를 290위에 추가시켰습니다. 순위와 앞뒤의 상황으로 보아 여기에 나온 miss는 Miss와 miss를 합한 개념으로 보입니다.

문제는 아래에 나온 white와 black입니다. TV Script List 원문에 ‘white or White’로 표기되어 있어 PG List와 비교했을 때 다르다고 나온 것이며 이는 색깔을 의미하는 white와 이름을 의미하는 White가 섞인 겁니다. PG List에도 이미 268위에 올라있어 <빅데이터 단어장> 218위에 랭크되었는데 그걸 모르고 다시 503위에 white를 올립니다. black도 마찬가지로 542위에 중복 등재해버리고 ‘black or Black’을 ‘black’으로 임의 수정했습니다. 이때문에  <빅데이터 단어장>에 white와 black이 두 번 등장합니다.  통계적으로 데이터를 분석했다고 저자가 말한것이 무색할 정도입니다. 

지금까지의 증거를 통한 검증결과 저자는 11억개의 모집단에서 직접 통계적으로 데이터를 분석했다는 표현은 완전한 허구입니다. 저자는 인터넷에 공개된 PG List 4만, TV Script 2만 단어를 임의로 조합해 2만단어의 <빅데이터 단어장>을 말들었고 이를 다시 8천개로 추려 <빅보카>를 만들었습니다. 모집단은 11억이 아니라 남이 작업, 정제해 놓은 6만 가량의  리스트입니다. 해당 리스트는 아래의 링크에서 얻을 수 있습니다. (https://en.wiktionary.org/wiki/Wiktionary:Frequency_lists)

검증2 : 700만권의 책으로 완벽한 우선순위를 매겼다는 사실에 대해

저자는 ‘가장 최신인 2008년을 기준으로 우선순위를 매겼다’고 했습니다.  구글의 소개에 따르면 Google Ngram은 세 가지 버전이 있습니다.  2009년 버전은 2008년까지의 책을 기준으로 단어의 빈도를 측정했고, 2012년 버전 역시 2008년까지의 책이지만 오류를 수정하고 더 많은 책을 담았습니다.  이는 구글이 공개한 버전별 total_counts 화일에서 확인할 수 있습니다.  (2012년 버전 : http://storage.googleapis.com/books/ngrams/books/googlebooks-eng-all-totalcounts-20120701.txt)  이에 따르면  2008년엔 206,272권의 데이터를 보유하고 있다고 정의되어 있습니다.  저자는 1505년부터 2008년까지 출간된 700만권이 아닌 2008년에 출간된 책 20여만권으로만 우선순위를 매겼습니다.  따라서 ‘700만권의 (누적 단어로) 우선순위를 매겼다는 것은 사실이 아닙니다.

구글이 공개한 total_count.txt 중 (맨아래 2008년, 총 단어수, 총 페이지수, 총 책의 수)
20만권의 책도 충분히 크므로 우선순위 검증엔 문제가 없을 것 같이 보여지지만 아래 엔그램뷰어는 다른 양상을 보여줍니다.  <빅보카>에 수록된 단어 여섯 개를 엔그램뷰어 버전1(2009), 버전2(2012), 버전3(2019)로 1990년부터 2008년까지 각각 검증했습니다.  여섯 단어는 <빅보카>에서 다음과 같은 순위를 가지고 있습니다.

  • 4000 senate
  • 5000 customize 
  • 5100 caricature 
  • 5200 consortium
  • 5300 gall 
  • 5400 gruesome 

저자가 사용했던 2012버전2의 순위부터 <빅보카>의 순위와 차이가 있습니다.(저자의 측정오류로 추측됩니다) 순위가 앞서는 senate만 나머지 5개 단어와 차이를 두고 상위권에 표시됩니다.  그러나 2009버전에선 customize가, 2019버전에선 consortium이 가장 상위에 있습니다.  또한 연도별 등락폭과 순위변동이 심해  2008년만으로 단어의 우선순위를 완벽하게 매기기엔 문제가 있습니다.    

우선순위 작업에 있어 또 하나의 문제점은 관련단어를 표제어로 모두 묶으면서 생략한 단어들의 빈도를 표제어에 반영하지 않았다는 사실입니다. <빅보카> 우선순위 1위는 the, 2위는 of, 3위는 and이며 be는 15위입니다. 저자는 표제어인 be를 남기고 is, was, were, are, been을 모두 제거하였습니다. 표제어는 삭제한 단어들의 스코어가 모두 더해져야 진정한 우선순위로서 의미가 있습니다. 엔그램뷰어에서 was, is, were, are, been에 be를 모두 더하면 아래 그림과 같이 우선순위 3위로 올라섭니다. 표제어로 묶은 단어장은 이렇게 생략된 단어들의 비중을 모두 더해서 구해야 진정한 우선순위가 됩니다. 그리고 이렇게 더해진 비율을 모두 합했을 때 아마 전체 단어빈도 90%에 육박하게 될 것으로 예상됩니다. 저자는 단어를 지우기만 하고 우선순위 조정은 신경쓰지 않았습니다. 그런데도 전체 단어빈도가 90%를 넘어선다고 했으나 이는 단순한 추측에 불과합니다. 

검증 3 : 최근 5년간 수능영어단어의 99%이상을 포함한다

2015년도 수능영어 홀수형의 지문 몇 개를 예로 들어 검증해보겠습니다. 그림의 색깔로 표시된 단어들은 모두 빅보카에 등장하지 않는 단어들입니다.  그러나 저자가 ‘최근 5개년 수능에서 표제어・관련어휘를 망라해 한 단어를 제외한 99%이상 포함률을 보였다’라고 하였으므로 범위를 좁혀 검증한다 하더라도 많은 단어가 빅보카에 포함되지 않았습니다. 

아래 예문은 총 182단어로 구성되어 있습니다. <빅보카>에 수록되지 않은 단어는 multiple을 비롯한 16개였고 총 22회 등장하여 88%의 일치율을 보이고 있습니다.  이 예문에 등장하는  ability, quickly, probably, made, choice, expression, alternately, sharing, became, simultaneously, alternating, comparing 역시 <빅보카>에 수록되지 않았지만 이는 관련어휘로 분류하여 포함된 것으로 간주합니다.

  • multiple  4회
  • psychologist 1회 
  • multitask/multitasking 4회 
  • megahertz 1회
  • retrospect 1회
  • deeptive  1회
  • inherently 1회
  • misleading 1회
  • hypothesis 1회 
  • everything 1회 
  • CPU 1회
  • flip 1회
  • context 1회 
  • interpret 1회
  • forth 1회
  • conceal 1회

아래 예문은 116단어 중 9개 단어가 <빅보카>에 포함되지 않아 95%의 커버리지를 보이고 있습니다. 

  • mini
  • professional 
  • turnaround
  • anything
  • everything
  • anything
  • volcanic 
  • bounce
  • lag

62단어중 4단어가 <빅보카>에 없어 94%의 커버리지를 보입니다. 무작위로 추출한 2015년도 수능영어시험 예문 세 개에서 99%이상의 커버리지를 보이는 경우가 한 번도 없었습니다. 

  • pleasure
  • chocolates
  • Wow
  • Okay

결론 : 허위와 소비자기만으로 점철된, 우선순위가 무색한 옛날 단어장

소비자들은 아래의 왼쪽과 같은 광고에 속아 이 단어장을 구입했습니다. 그러나 저자가 직접 합쳐 11억 모집단을 만들었다는 단어장은 없었습니다. 저자는 출처를 밝히지 않고 PG List와 TV Script를 무단 도용해 총 3권의 책을 펴냈고 막대한 부당이익을 취했습니다.

소비자들은 구글의 빅데이터로 우선순위를 검증했다는 말을 믿었고, 수록된 단어들은 모두 2008년도에 가장 자주 쓰인 우선순위 단어장으로 알고 있었습니다. 그러나 엔그램뷰어의 상위 1만단어와 비교해보면 빅보카와 겹치는 단어는 3,161개에 불과합니다. 현대에서 자주쓰이며 엔그램 2천순위내에 있는 technology, sports, photo, download, north, directory, tv,social과 같은 단어는 빅보카에 없습니다. (아래 그림 참조) (구글 엔그램 상위 1만단어 리스트 : https://github.com/first20hours/google-10000-english )

1923년 이전에 나온 PG List 32,000개와 <빅보카>를 비교하면 7,744개가 일치합니다. 즉 97%가 1923년 이전에 즐겨쓰던 단어들입니다. 현대어를 위해 TV Script에서 추가했다는 단어는 120개에 불과합니다. 

PG리스트 상위 1만 단어와 엔그램 1만 단어를 비교하면 60%가 일치합니다. 지난 1백년동안 40%의 단어 쓰임새가 바뀐 것입니다.(아래 그림1) 빅보카는 이 그림에서 좀 더 아래로 치우쳐있습니다. 엔그램 상위 1만단어와 39%정도 일치하지만 PG리스트 1만단어와는 48%정도 일치해 더 옛날단어뭉치에 가깝습니다.(아래 그림 중간 2) 소비자들은 엔그램에 가까운 아래의 3번그림으로 알고 구입했을겁니다. 출판사와 저자는 분명 3번인 것 처럼 책을 소개했고 광고했습니다. 소비자는 그에 철저히 기만당했습니다. 

저자가 문제제기를 벗어나려면 

저자 신영준씨가 지금까지의 문제제기에서 벗어나려면 자신이 8억개에 3억개를 더해 분석했다는 데이터의 실체와 단계별 작업과정을 밝혀 그 결과가 <빅보카>와 같다는 것을 증명해야 할 것입니다. 그것은 또한 기존의 PG List를 그대로 베끼지 않았다는 증거가 되기도 할 것입니다. 또한 같은 방법으로 700만권 전체로 우선순위를 철저하게 검증하였다는 사실과 <빅보카>전체 단어의 비중이 모집단의 90%가 넘는다는 사실도 증명해 주시기 바랍니다. 직전 5개년 수능영어시험의 99%일치율 역시 마찬가지입니다. 

독자/소비자들의 요구  

만약 출판사와 저자가 11억 빅데이터와 700만권의 우선순위, 수능 99%를 증명하지 못해 위에서 제기한 문제의 전체나 부분을 인정할 경우 저는 소비자를 대표해 아래와 같이 요구합니다.

  • <빅데이터 단어장>, <빅보카 Core>, <빅보카 Advanced> 세 권의 즉각적인 절판과 판매중단, 회수 
  • 출판사와 저자의 사과문 (그동안 광고/홍보를 개제했던 매체 전부에 대하여) 
  • 원하는 소비자들에 대한 즉각적인 환불 (영수증이나 판매기록, 또는 책의 실물 확인시) 

추가적인 <빅보카> 의 문제들 

  • <빅보카>의 표제어 작업은 일관성없고 오류가 많아 전반적으로 품질이 떨어짐 
    • forth, dollar, duke, copyright의 삭제는 이해할 수 없음 
    • species, sometimes는 복수형이라 착각해 삭제 (자체로 단수형) 
    • 108위 found를 ‘설립하다’로 표기. find는 147위. 108위 found는 find의 과거형으로 더 많이쓰임 
    • (#2541)sensor, (#223)sense는 별도 표기, (#170)law는 있으나 sensor보다 빈도순위가 높은 lawyer는 삭제
    • influent와 influence는 별도로 등장, evident는 없고 evidence는 나옴. evident는 influent보다 100배 더 자주 등장
  • 교육부 초등학생 필수 영단어의 상당수가 <빅보카>에 나오지 않음
    • across, afternoon, candy, dad, dolphin, east, grandma, north, pants, pink, tonight 없음 (west와 south는 나오는데, east와 north는 나오지 않는 이유는 무엇일까?)
  • <빅보카>는 ‘단어 뜻’을 네이버 사전과 다음사전을 번갈아가며 그대로 베껴서 완성됨 
    • 네이버 사전 무단도용 (무려)74%
    • 네이버+다음 번갈아도용 (10%)

  • <빅보카>출간 후 출시한 모바일앱 ‘빅보카’퀴즈엔 예문이 실려있으나 오류가 너무 많음 

교회법이라는 뜻의 canon과 주식회사 캐논을 구별하지 못합니다.

보통명사 eddy와 사람이름 Eddy를 구별하지 못합니다.

Ms. Butler는 졸지에 집사로 전락하는군요.

설립하다는 뜻의 found와 find의 과거분사형 found를 구별하지 못합니다.

“Obama out!”을 “오바마 퇴장합니다”로 해석합니다.

testimony를 testimoney로 잘못 표기한 것 정도는 애교입니다.

afford의 예문에 offered가 나옵니다. 발음이 비슷하다고요?

maybe와 may be를 구별하지 못합니다.

Facebook Comments

댓글을 남겨주세요~