[LAB INTERVIEW] 데이터 기반의 정책연구의 정책연구를 위한 노력
- 국가비전과 전략연구
- 위원회 및 연구단
- 발행기관경제ㆍ인문사회연구회
- 연구자정용찬 정보통신정책연구원 ICT데이터사이언스연구본부 본부장
주요내용
코로나19 팬데믹 상황이 1년 반 가까이 지속되고 있다. 코로나19 위기는 경제적 충격에 그치지 않고 우리 삶의 방식을 바꾸고 있다. 미래의 불확실성이 짙어지고 사회 문제의 복합성이 증가할수록 빅데이터를 기반으로 효과적인 전략을 수립하고 의사 결정을 지원하는 것이 중요하게 여겨지고 있다. 빅데이터 활용 현황, 증거기반정책 지원을 위한 연구과제의 중요성을 정용찬 정보통신정책연구원 ICT데이터사이언스연구본부 본부장에게 들어보았다.
1. 정보통신정책연구원 ICT데이터사이언스연구본부 본부장님을 맡고 계신다. ICT데이터사이언스연구본부에서 수행하는 연구에 대한 소개를 부탁드린다.
정용찬 본부장 : 작년 7월 ICT데이터사이언스연구본부가 출범했다. 이전에는 ICT통계정보연구실이라는 조직 안에 데이터사이언스그룹이 소속되어 있었다. ICT에 관한 각종 통계자료를 생산·분석·전망하고 있으며 이 과정에서 생산된 다양한 정보를 수요자들과 공유하는 역할을 하고 있다. 빅데이터가 등장하면서 기존의 통계 자료를 생산·분석하는 것과는 다른 방법론이나 과정을 연구하기 위한 데이터사이언스그룹이 조직 개편을 통해 본부가 되었다. 최근 변화된 데이터 생산 환경에 적극적으로 대응하기 위한 노력이라고 생각한다. 통계는 예전부터 활용해왔지만, 빅데이터나 딥러닝과 같은 개념이 등장하면서 새로운 연구 분야에 대한 방법론 개발이 필요했다. 그 과정에서 기존에 존재하는 국가승인통계를 포함하여 빅데이터를 비롯한 다양한 유형의 데이터를 어떻게 분석해서 정보를 추출할 것인가를 본부 차원에서 고민하고 있다. 기존의 데이터를 취합하다 보면 미래는 어떻게 전개될 것인가라는 미래 예측의 필요성이 자연스레 제기된다. 본부 안에는 ICT통계정보연구실과 미래예측분석센터가 있다. 다양한 유형의 데이터를 생산·분석·활용하기 위한 연구를 담당하고 있다. 본부 내에는 경제학을 전공하신 분이 가장 많고, 통계학, 산업공학뿐만 아니라 ICT 미디어 분야를 다루고 있어 미디어 전공도 있으며, 여러 전문가들이 협업하는 구조로 이루어져 있다.
3. 불확실한 미래를 대비하기 위해 데이터·증거기반 정책에 대한 수요가 높아지고 있는데, 세계 주요 국가들의 데이터 기반 정책은 어떻게 이뤄지고 있는가.
정용찬 본부장 : 데이터 기반 의사결정은 기업으로부터 촉발되었다. 이전에는 통계, 데이터라고 한다면 정부가 가장 막강한 파워를 가졌다. 이집트 로마 시대에도 인구 조사를 실시한 걸 상기해보라. 이렇게 정부가 가장 많은 데이터를 가지고 있었는데 구글, 아마존처럼 빅데이터 기업이 등장하면서 힘이 역전이 된 것이다. 정부는 통상적으로 방문 면접조사를 수행하는 데 조사가 점점 어려워지고 있다. 프라이버시 등 다양한 문제 때문에 대상자가 조사를 꺼리기 때문에 필연적으로 조사결과의 신뢰성이 떨어지고 있다. 이렇게 전통적인 데이터 수집 과정에서 골머리를 앓고 있는 것과 대조적으로 다른 한쪽에서는 자동적으로 데이터가 축적되고 있다. 예를 들어 통계청에서 소비 데이터가 필요할 때 신용카드회사의 데이터는 중요한 정보가 될 수 있다. 결국 정부도 민간에서 생산한 자료도 활용해야 하지 않는가 하는 이야기가 자연스레 나오는 것이다.
우리나라는 주민등록, 등기등본, 출생·사망 신고는 반드시 취합하는 정보이며, 이러한 자료는 정책에 활용되고 있다. 마찬가지 관점에서 민간 자료를 정부정책에 활용해보자는 것이다. 주요 국가의 데이터 기반 정책은 별도로 조사하지 말고 자연스럽게 쌓이는 행정자료, 민간자료, 즉 빅데이터를 활용하자는 것인데, 이를 활용하면 맞춤형 서비스를 만들 수 있다. 그렇게 하려면 법이나 제도가 이를 뒷받침해야 한다. 미국은 위원회를 만들어서 데이터에 기반한 정책, 이를 증거기반 행정이라 표현하는 데 이를 어떻게 활성화시킬 것인가를 연구하고 있다. 여기서 더 나아가 증거기반행정에 대한 법안을 만들었다. 예를 들어 증거기반정책을 실행하는 위원회에는 어떤 사람이 참여하는지, 어떤 과정을 거치는지에 대해 상세하게 규정한 법안을 만든 것이다. 우리나라도 작년에 ‘데이터기반행정법’을 제정했는데 정책을 결정해야 할 때 데이터에 기반해야한다는 것이 법의 취지이다.
한편 데이터 파워 면에서는 점점 더 민간이 앞서나가고 있다. 통신 데이터, 신용카드 정보 등을 모으면 개인의 행동과 생각을 정확히 파악할 수 있다. 유명한 사례 중 하나가 미국의 대형마트에서 학생에게 임신 관련 물품을 할인하는 쿠폰을 발송한 사례이다. 임신 초기의 고객들이 자주 사는 물품들을 저렴하게 구매할 수 있는 쿠폰을 제공했다. 당연히 그 학생의 부모가 항의했는데, 알고 보니 딸이 임신한 것이 사실이었다는 해프닝이었다. 자기 가족보다 기업이 더 잘 알고 있는 이러한 상황은 민간에서 촉발되어 공공 영역으로 퍼지고 있다. 이를 데이터 이코노미라는 표현한다. 이전에는 디지털 이코노미라고 했었는데 결국 데이터를 매개로 하기 때문에 데이터 이코노미라는 표현을 쓰고 있다. 전 산업이 데이터 역량을 기본으로 요구하고 있다. 노르웨이 연어 양식이 어업에서도 대표적인데, 인공지능이 수온을 조절하고 먹이도 자동으로 준다. 농업도 마찬가지다. 도시안의 공장형 생산시설에서 자동으로 온도, 습도, 비료, 일조량을 조절해서 청정 농작물을 재배한다. 이제 데이터 분석이 적용되지 않는 분야를 찾기 어렵다.
4. ICT 기술혁신이 4차 산업혁명을 주도하고 있다. ICT 산업은 빠른 패러다임 전환으로 인해 시의적절한 정책 수립이 중요하지 않나. 작년 「ICT 정책지원을 위한 빅데이터 분석과 예측모형 개발 연구」를 수행하시면서 중점을 두셨던 부분이 있다면 알고 싶다.
정용찬 본부장 : 국책연구기관에서 ICT 분야를 담당하기 때문에 겪는 어려움은 이 분야가 너무 빠르게 변화한다는 점이다. ICT 정책연구자라면 기술 트렌드가 어떻게 변화하는지 파악해야 한다. 만일 블록체인이 중요하게 부상한다면, 경쟁력 있는 산업 육성을 위한 관련 정책을 빠르게 수립해야 하는데 발 빠르게 대응하는 데 한계가 있다. 미래를 예측하는 것이 쉽지 않지만 빅데이터가 등장하면서 뉴스나 블로그 데이터 등을 활용하여 기술 트렌드를 전망하는 데 도움이 되고 있다. 기술 관련 트렌드는 SNS에서도 파악해볼 수 있다. 논문, 특허 등록은 시간이 많이 소요되기 때문에 학술 세미나, 컨퍼런스 등에서 발표되는 내용을 통해 빠르게 정보를 파악할 수도 있다. 새로운 데이터를 활용해서 기술 변화를 빠르게 포착할 수 있지 않을까라는 생각에 착안한 것이 「ICT 정책지원을 위한 빅데이터 분석과 예측모형 개발 연구」다. ICT 기술변화 트렌드를 조기에 발견할 수 있는 모델을 개발하고자 했다. 이상적인 방법으로는 학술대회, 뉴스, SNS에서 발생하는 데이터를 모아서 이를 통해 ICT 분야의 이슈를 조기에 자동적으로 찾아내는 모형을 개발하는 것이다. 핵심은 텍스트 분석이다. 텍스트는 분석하기가 쉽지 않다. 정형화 되어 있는 숫자 데이터와는 속성이 다른데, 텍스트 데이터는 의미를 파악하려면 상황에 따른 어의 분석, 함께 쓰이는 관련 있는 다른 단어를 살펴야 하는 등 기술적으로도 어렵다.
이러한 분석을 잘하는 곳이 기업이다. 우리나라의 네이버를 들 수 있다. 검색을 잘 하려면 약자도 입력해줘야 한다. 예를 들어 ‘현기차’라는 단어를 검색하면 ‘현대기아자동차’와 동일하다고 미리 정의해 놓아야 한다. 자동적으로 이러한 작업이 이뤄지면 좋겠지만 인간의 노동이 필요하다. 초기에는 사람의 노력이 세심하게 들기 때문에 IT기업을 노동집약적이라고 표현하기도 한다. 가짜 정보도 걸러내야 하는 등의 어려움이 있지만 텍스트 분석은 정부출연연구기관이라면 관심을 가질 수밖에 없다. 현재 정보통신정책연구원과 몇몇 연구원이 TF를 통해 경사연 데이터공유플랫폼 구축작업을 진행하고 있다. 우선 국내외 뉴스기사를 공유하고, 연구보고서와 컨퍼런스, 세미나 자료 등을 축적하고 공유한다면 연구 성과를 높일 수 있다. 쉽지는 않겠지만 앞으로 계속 노력을 기울여야 하는 분야이다.
우리나라가 가진 데이터 중에서 세계에서 주목하는 것이 몇 가지 있다. 인구 관련 데이터의 경우 우리나라처럼 잘 정리된 곳을 찾아보기 어렵다. 우리는 주민등록번호로 모든 것을 연결할 수 있는데 다른 나라는 그렇지 않다. 미국과 같은 경우는 데이터 연계 작업을 민간에서 마케팅 목적으로 진행하고 있다. 소위 데이터브로커가 발달되어 있다. 반면 우리나라는 공공 기관이 잘 정비된 데이터를 보유하고 있다. 그래서 해외에서 인구학을 연구하는 전문가들이 우리나라를 굉장히 부러워하는 것으로 알고 있다.
또 하나가 의료 관련 정보이다. 우리나라 국민 대부분은 지역 혹은 직장 건강보험에 가입되어 있다. 개인의 병원기록, 약국 기록, 건강검진 데이터가 연결되어 있다. 제약회사나 생명보험회사도 상품개발에 요긴한 자료인데 자유롭게 활용할 수 있기를 매우 원하고 있다. 미국만 해도 공공보험, 사보험이 나뉘어져 있기 때문에 이렇게 축적된 데이터를 찾기 어렵다.
다른 나라에서 개발된 분석 방법론을 가져다 쓰는 게 생각보다 쉽지 않는 경우도 있다. 의료분야에 도입된 사례 중 ‘왓슨(Watson)'이라는 인공지능 프로그램이 있다. 미국에서도 활발히 활용되고 있고 우리나라도 4~5년 전에 수입해서 쓰고 있다. 그런데 미국인들의 데이터 기준으로 학습되었기 때문에 우리나라 사람에게 적용하기 어려울 수도 있었다. 그래서 우리나라 의료 데이터를 활용하면 우리나라 사람에게 맞는 진단법을 개발할 수 있고, 맞춤형 약 처방도 가능하다. 이를 위해 데이터를 개방해달라는 요구가 계속되고 있다. 하지만 민간이 영리목적으로 활용하는 것에 대한 반대 의견도 있고, 희귀병의 경우 아주 소수만 앓는 병이기에 개인이 특정될 것을 우려하는 목소리도 크다. 데이터를 활용해서 부가가치를 창출할 수 있다고 해도 공개의 수준과 범위를 어느 정도로 할 것인지는 이해당사자마다 의견이 다르므로 합의를 위해서는 시간이 필요하다. 특히 미국과 달리 유럽은 이러한 문제에 정말 민감하다. 2차 세계대전을 겪으면서 개인정보를 보호해야한다는 의식이 강해졌기 때문이다. 데이터 경제 시대에 데이터는 중요한 자산이지만 우리나라 국민들이 어느 선까지 개인 데이터를 활용할 수 있도록 허용할 것인지에 대해서 고민해야 한다. 다른나라의 사례를 주목하면서 데이터 공개와 활용을 위한 사회적 논의가 지속되어야 한다.
5. 작년 12월에는 「2021 대한민국 종합 미래전망대회」를 함께 진행하시기도 했다. 데이터 기반의 지수 개발을 통해 국정방향을 제언하는 행사였는데 연구의 내용과 의의에 대한 견해를 듣고 싶다.
정용찬 본부장 : 미래전망대회를 경제·인문사회연구회와 함께 추진하면서 가장 역점을 둔 것은 국책연구기관들도 본격적으로 데이터 기반 정책 연구를 강화해야 한다는 것이었다. 또한, 미래에 대한 불확실성이 커지기 때문에 데이터 기반 행정이 중요해지고, 예측이 중요해졌는데 국책연구기관이 모여서 각 분야의 전망을 공유해보자는 취지였다. 의의를 종합하자면 정부 정책에서 데이터 증거기반의 트렌드를 유지·발전시켜야 하며, 공유하는 형태를 취해야 한다는 것이다. 또 미래전망대회로 끝나는 것이 아니라 국정운영에 반영하여 정책 수립에도 도움이 될 수 있는 방향으로 나아가고자 한다. 이러한 활동은 국책연구기관의 본연의 의무라 할 수 있다. 전망대회를 통해 단기간, 중장기간별로 어떠한 정책이 중요할 것인지, 어떠한 연구를 수행해야 하는지를 고민하고 확인한다는 점에서 미래전망대회가 중요한 의미를 가지고 있다.
6. 우리나라가 세계적인 ICT 인프라를 보유하고 있는데도 빅데이터 활용도가 낮다는 지적이 있는데, 이에 대한 원인은 무엇이라고 생각하시는가. 또한, 이를 타파하기 위해 어떠한 점이 개선되어야 하는가?
우리나라는 인터넷 보급률 세계 1위, 데이터 생산 능력 세계 5위의 나라이다. 특히 IT분야에서는 우리나라 국민들이 빨리 변화에 적응하기 때문에 대표적인 테스트베드다. 성인 스마트폰 보급률도 세계 1위이기 때문에 문자를 보내고 음악을 듣고 동영상을 감상하고 인터넷쇼핑을 하는 과정에서 다양한 데이터를 생산하므로 데이터 자산 관점에서 잠재력이 있다. 남은 문제는 공유와 활용에 대한 사회적 합의가 필요하고, 합의하는 과정에서 개인 차원, 공동체 차원, 국가 차원에서 다양하게 고민해야 한다는 것이다. 이러한 것은 법을 바꾼다고 해서 개선하기는 어렵다. 다만 우리나라는 위기에 적극 대응하려는 성향이 있어 바람직한 방향으로 나아갈 수 있을 것이라고 생각한다.
대표적인 성공 사례가 코로나19 방역이다. 갑론을박이 있을 수도 있지만 우리나라는 국제적으로 방역에 성공한 국가 중 하나이다. 사망자 비율이 낮은 편이고 전면적인 통제를 하지 않고도 방역을 진행하고 있다. 이렇게 성공하게 된 배경은 방역당국, 의료기관, 행정기관이 확진자 정보를 공유하는 데이터 공유 시스템을 구축했기 때문이다. 데이터 3법은 알아도 코로나 3법은 모르는 분들도 많다. 지난해 초 통과한 코로나3법에는 감염자 정보를 전자 시스템을 통해 공유하는 조항이 있다. 감염자의 동선 파악 등을 실시간으로 공유할 수 있게 된 것이다. 이는 사스, 메르스 위기를 겪으면서 필요성에 대해 논의된 내용을 코로나19 계기로 법으로 만든 것이다. 초반에는 확진자의 개인정보가 아주 상세하게 보도되기도 했다. 그렇다보니 국가인권위원회에서도 코로나19 확진자의 과도한 사생활 공개를 지양하라고 권고하기도 했다. 해외 몇몇 국가에서도 이러한 시스템을 시도하려고 했으나 프라이버시 침해라는 의견이 우세해서 실패했다. 결국 인식의 차이이다. 물론 코로나19를 막기 위해서는 불가피하다고 생각하는 사람들도 있지만 빅브라더처럼 한 기관이 모든 정보를 장악할 수도 있다는 우려에 대해서는 관심을 가지고 살펴보아야 한다.
<그리고 이 보고서, 서적을 추천합니다>