800만 권의 책을 맘껏 검색할 때 벌어지는 일
800만 권의 책을 맘껏 검색할 때 벌어지는 일
이 기사를 공유합니다

[BOOK世通, 제주 읽기] 185. 에레즈 에이든-장바티스트 미셸, 김재중 역, '빅데이터 인문학: 진격의 서막', 사계절, 2015.

나는 전자책을 제대로 읽어본 적이 없다. 정확히 말해 한 권의 전자책을 처음부터 끝까지 완독한 경험이 없다. 이렇게 쓰고 보니, 디지털 시대에 뒤처진 한 사람의 독자가 컴퓨터로 글을 쓰고 있는 느낌이 든다. 그럼에도 불구하고 전자책이라는 형식을 잘 활용하지 않을 뿐이지, 이미 나는 디지털 텍스트를 과도하게 읽고 있다. 

일어나자마자 메시지 프로그램을 확인하거나 화장실에서는 정해진 일상 의례처럼 뉴스를 읽는다. 이처럼 종이책보다는 이미 웹 텍스트를 수십 배, 수백 배 읽고 있는 생활을 하고 있다. 이러한 급격한 차이는 아마 평범한 독자(나는 지금 이 용어를 종이책이 아닌 모든 텍스트의 독자로 쓴다.)에게는 더 클 것으로 예상된다. 

나는, 불행히도 나이에 비해 심각한 안구건조증이 있어, (사실, 다른 모든 사람들도 그렇긴 하지만) 종이책이 전자책보다 읽기에 훨씬 편안하다. 그걸 잘 알면서도 하루 종일 눈을 혹사시키면서 습관적으로 온갖 디지털 텍스트를 스마트폰, PC, 태블릿 PC 등을 이용해 읽는다. 

그 이유는 몇 가지가 있다. 먼저 디지털 텍스트는 책이나 신문처럼 종이 인쇄물보다 독자가 알고 싶어하는 정보에 ‘빠르게’ 접근할 수 있도록 해주기 때문이다. 대학 시절 신문방송학을 전공하면서, 이제는 일간지가 아니라 ‘초간지’의 시대가 되었다고 배웠다. 하루 단위의 뉴스를 종이 신문을 통해 읽는 것보다 스마트폰의 뉴스는 훨씬 빠르게 정보를 접하게 해준다. 게다가, 스마트폰의 웹브라우저 앱은 나의 사용 정보를 분석한 것인지, 이를테면 자동적으로 '제주의소리'의 뉴스를 큐레이션해 준다. 

디지털 텍스트의 또 다른 장점으로 내용 검색이 쉽다는 점이다. 특정한 내용이나 단어를 다시 보기 위해서 검색 한 번으로 쉽게 다시 접근할 수 있다. 취미로 책을 읽는 경우 책의 마지막 즈음에 실린 색인을 제대로 들여다보는 경우는 거의 없다. 하지만 공부나 연구를 위해 독서를 하는 경우에는 이러한 색인은 꽤나 요긴하다. 색인이 없는 학술서가 상당히 불성실한 인상을 풍기는 이유는 그래서다.   

전자책이나 PDF로 된 전자 문서는 색인이 딸린 종이책과 비교할 수 없는 강력한 검색 기능을 활용할 수 있다. 색인이 없는 문서를 읽는다 해도, 간단하게 검색 기능을 통해 책의 특정 단어로 이동할 수 있다. 디지털 텍스트의 이러한 장점을 자주 사용하다 보면 검색이 어려운 종이책이 너무도 불편한 물건처럼 느껴지기에 이른다.

하지만 종이책 역시 디지털화한다면 이러한 장점을 활용할 가능성이 충분하다. 이미 인쇄된 책과 문서를 스캔해서 문자를 인식(OCR)한다면 얼마든지 쉽게 검색할 수 있다. 나 또한 몇몇 문학 텍스트나 논문 자료를 그렇게 편리하게 만들어 활용하고 있다. 그런데 도서관의 모든 책들을 그렇게 이용할 수 있다면 얼마나 좋을까.

'빅데이터 인문학'은 바로 그런 상상을 실현시킨 두 사람의 이야기다. 두 사람은 수학이나 과학 분야, 아니 과학의 특정 분과를 벗어나, 게다가 인문학과 사회과학에까지 경계 없이 활동한 젊은 학자이다. 에레즈 에이든과 장바티스트 미셸은 하버드대학교의 한 연구 프로젝트에서 만나 의기투합한다. 그들은 도서관의 수많은 장서들에 담긴 데이터를 분석하기 위한 목표를 갖고 구글 북스 프로그램에 주목한다.

구글이란 검색 엔진 사이트는 본래 대학 도서관의 자료를 검색하기 위한 아이디어로 출발했다. 구글은 대학 도서관의 수백만 권의 장서를 모조리 스캔해서 디지털화하려는 야심을 갖고 있었다. 그 불가능해 보이는 계획은 실제로 어느 정도 달성되어서 이 책이 소개하는 바로는, 구글은 2013년 기준으로 이 세상에 존재하는 1억3000만 권의 책 가운데 3000만 권을 이미 디지털화했다. 

구글 북스의 그 수 많은 디지털 도서 자료를 어떻게 활용할 수 있을까? 이 책의 두 저자들은 ‘책벌레’라고 부르는 프로그램을 통해 구글 북스의 빅데이터이자 ‘롱데이터’를 활용해 다양한 통계와 프래프를 만들어냈다. 그것은 지금 우리가 접할 수 있는 ‘구글 엔그램 뷰어’( https://books.google.com/ngrams )로 서비스되고 있다.

책의 부제가 말하는 것처럼, 엔그램 뷰어는 800만 권의 책들에 담긴 내용들을 검색해서 연도별로 출현 빈도를 그래프로 그려주는 서비스다. 수백만 권의 책들을 순식간에 들여다볼 수 있는 엔그램에는 문화와 사회의 변동을 보여주는 그림자들이 어른거린다. 저자들은 구글 엔그램의 원형인 책벌레를 통한 사회문화적 연구를 ‘컬처로믹스’(Culturomics)라는 신조어로 부른다. 

이 책은 구글 엔그램을 어떻게 활용해야 할지를 전문적인 식견으로 친절하게 알려주는 가이드는 아니다. 그보다 저자들의 지적 탐구의 여정을 독자와 나누고 그 의의를 확장하는 데 있다. 구글의 담당자들이 말했던 것처럼, 구글 엔그램은 어쩌면 전 세계의 10만여 명의 교수들에게나 관심을 끌 물건인지도 모른다. 그리고 그 정도 숫자는 글로벌 공룡기업이 되어버린 구글에게는 무의미한 숫자일 것이다. 하지만 이것은, 과학이나 더 넓게 말해 지적 세계의 탐구, 아니 정보화 시대에 디지털 정보를 두 손으로 직접 활용해본다는 것이 무엇인지를 생생하게 느끼고 싶은 누구에게나 열려 있는 만화경 느낌의 거대한 망원경이 될 수 있다. 

나 또한 예전에 재미 삼아 몇 번 사용해본 구글 엔그램에 다시 접속해 보았다. 이 사이트는 'Albert Einstein,Sherlock Holmes,Frankenstein'을 검색의 예시로 제시한다. 세 인물(캐릭터)가 영어 책에서 출현하는 빈도는 수백 년 간 어떻게 변화할까? 엔그램은 그런 질문에 전세계에서 가장 정확하게 답하는 도구가 된다. 

이번에는 ‘kimchi’를 넣어보기로 하자. 처음 안 사실이지만, 최근에 김치는 전세계적으로, 아니 더 정확하게 말하면 영어권 책에서 그 존재감을 과시하고 있었다. 그래프는 최근에 놀라울 정도로 가파르게 상승하고 있다. 특히 2008년에 도대체 무슨 일이 있었는지 그 경사는 급격한 형세를 이룬다. (이것은 김치가 외국에서 인기를 얻고 있다는 개인적인 정보 전달이나 몇몇 언론 보도와는 다른 차원의 객관적 지표가 될 수 있다.)

구글 엔그램에서 ‘kimchi’(김치)를 검색한 결과. 제공=노대원.

구글에서 다시 ‘김치’를 검색해보면, 그 이유를 즉각 알 수 있다. 2008년, 미국의 유명한 건강 연구지 헬스지에서 김치를 올리브유, 그릭 요거트, 렌틸콩, 낫토와 함께 세계 5대 건강식품으로 선정했다고 한다. 그 이후 김치는 자주 슈퍼푸드로 호명되면서 더 많은 국제적인 명성을 얻게 되었다.

조심스럽게 추정해보건대, 영어 책이 아닌 영어 보도 기사를 대상으로 통계를 낸다면 어쩌면 김치는 더 높은 유명세를 얻게 되었을지도 모른다. 또 한 번 조심스럽게 제안해본다면, 한국 음식을 세계에 알리는 방법으로는 한국 음식이 건강에 좋다는 점(신뢰할 만한 연구 결과)을 적극적으로 홍보하는 방법이 유효할 수 있겠다는 생각이 든다. 

구글 엔그램에 김치를 검색하고 있으니 영어 책을 대상으로 영어만을 검색해야 하는 한계를 절감했다. 한국의 빅데이터를 활용하려면 어떻게 해야 할까? 구글 북스와 엔그램에는 못 미치더라도 그러한 시도가 우리에게도 필요한 것은 아닐까? 이 책의 내용만큼이나 책의 말미에 살린 특별 좌담은 한국의 디지털 인문학의 가야할 ‘험난한’ 먼 길에 대해 숙고하도록 요청한다.

▷ 노대원 교수

서강대학교 국어국문학·신문방송학 전공, 동대학원 국문학 박사과정 졸업
대산대학문학상(평론 부문) 수상 
2011년 『문화일보』 신춘문예 평론 부문 당선
제주대학교 국어교육과 부교수 재임.

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
0 / 400
댓글 1
0 / 400
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
최신순 추천순 이 기사에 달린 댓글 1