[LAB INTERVIEW] 데이터 기반의 정책연구의 정책연구를 위한 노력

연구성과

스팟라이트 주목해야하는 콘텐츠!

포스트

[LAB INTERVIEW] 데이터 기반의 정책연구의 정책연구를 위한 노력

국가비전과 전략연구
위원회 및 연구단

발행기관경제ㆍ인문사회연구회
연구자정용찬 정보통신정책연구원 ICT데이터사이언스연구본부 본부장

주요내용

코로나19 팬데믹 상황이 1년 반 가까이 지속되고 있다. 코로나19 위기는 경제적 충격에 그치지 않고 우리 삶의 방식을 바꾸고 있다. 미래의 불확실성이 짙어지고 사회 문제의 복합성이 증가할수록 빅데이터를 기반으로 효과적인 전략을 수립하고 의사 결정을 지원하는 것이 중요하게 여겨지고 있다. 빅데이터 활용 현황, 증거기반정책 지원을 위한 연구과제의 중요성을 정용찬 정보통신정책연구원 ICT데이터사이언스연구본부 본부장에게 들어보았다.

정용찬 정보통신정책연구원 ICT데이터사이언스연구본부 본부장

1. 정보통신정책연구원 ICT데이터사이언스연구본부 본부장님을 맡고 계신다. ICT데이터사이언스연구본부에서 수행하는 연구에 대한 소개를 부탁드린다.

정용찬 본부장 : 작년 7월 ICT데이터사이언스연구본부가 출범했다. 이전에는 ICT통계정보연구실이라는 조직 안에 데이터사이언스그룹이 소속되어 있었다. ICT에 관한 각종 통계자료를 생산·분석·전망하고 있으며 이 과정에서 생산된 다양한 정보를 수요자들과 공유하는 역할을 하고 있다. 빅데이터가 등장하면서 기존의 통계 자료를 생산·분석하는 것과는 다른 방법론이나 과정을 연구하기 위한 데이터사이언스그룹이 조직 개편을 통해 본부가 되었다. 최근 변화된 데이터 생산 환경에 적극적으로 대응하기 위한 노력이라고 생각한다. 통계는 예전부터 활용해왔지만, 빅데이터나 딥러닝과 같은 개념이 등장하면서 새로운 연구 분야에 대한 방법론 개발이 필요했다. 그 과정에서 기존에 존재하는 국가승인통계를 포함하여 빅데이터를 비롯한 다양한 유형의 데이터를 어떻게 분석해서 정보를 추출할 것인가를 본부 차원에서 고민하고 있다. 기존의 데이터를 취합하다 보면 미래는 어떻게 전개될 것인가라는 미래 예측의 필요성이 자연스레 제기된다. 본부 안에는 ICT통계정보연구실과 미래예측분석센터가 있다. 다양한 유형의 데이터를 생산·분석·활용하기 위한 연구를 담당하고 있다. 본부 내에는 경제학을 전공하신 분이 가장 많고, 통계학, 산업공학뿐만 아니라 ICT 미디어 분야를 다루고 있어 미디어 전공도 있으며, 여러 전문가들이 협업하는 구조로 이루어져 있다.

2. 코로나19와 같이 신종 바이러스의 출현 등 현대 사회의 복잡성이 날로 높아지고 있다. 그렇기에 더욱 빅데이터의 활용이 활발한 사회이다. 아마존, 구글 등 세계 유수의 기업이 빅데이터를 활용하여 전략을 구축하고 있는데 대표적인 사례가 궁금하다.

정용찬 본부장 : 잘 아시는 것처럼 구글은 빅데이터 분야의 선도기업이라고 할 수 있다. 빅데이터 시장, 빅데이터 산업을 개척한 기업이라고 할 수 있다. 구글은 다양한 빅데이터 모델을 다수 개발했다. ‘구글 트렌드’로 독감을 예측한 사례가 대표적이다. 이전에는 환자가 병원에 방문해야 독감 감염 여부를 알 수 있어서 독감 감염 현황을 파악하는 데 많은 시간이 필요했다. 그러나 사람들이 증상을 구글에 검색하는 것으로 해당 지역에 독감이 유행하는지를 알 수 있었다. 구글의 독감 검색 데이터는 미국 질병통제예방센터 통계보다 지역별로 빠르게 취합할 수 있었다. 물론 장기적으로는 질병통제예방센터의 통계가 정확하겠지만, 두 데이터는 성격이 다르다. 검색 데이터는 속보성이 강하고, 질병통제예방센터의 데이터는 정확성이 강하여 서로 보완하는 개념이라고 볼 수 있다.

구글의 주 수입원은 (데이터에 기반한) 광고이다. 많은 사람들은 구글이 방송사를 몰락시킬 것이라고는 생각하지 않았을 것이다. 데이터는 예기치 않은 곳에서 시장 판도를 바꿔버릴 수 있다. 데이터 분석역량이 뛰어나면 어떠한 분야에서도 영향력을 발휘할 수 있다. 검색 기업과 무인 자동차는 관계는 없어 보이겠지만, 무인 자동차는 데이터를 빠르고 정확하게 처리할 수 있어야 한다는 점에서 구글의 강점을 자연스럽게 녹여낼 수 있는 분야다. 빅데이터 기업은 고객의 선호를 정확히 파악하고 있고, 이러한 개인 정보를 바탕으로 어느 분야든 진출할 수 있다는 특징이 있다. 지금 스마트시티가 각광받고 있는데, 스마트시티의 기본적인 기능은 데이터 처리 분석에 기반한다. 고연령대의 시민이 맥박과 혈압에 이상이 생기면 자동으로 보건 당국에서 연락을 취하고, 만약 연락을 받지 않으면 응급차가 출동하는 것도 가능하다. 교통신호 체계와 사소하게는 가로등을 끄고 켜는 것까지 자동화가 가능하므로 스마트시티 개발의 핵심적인 기능을 발휘할 수 있는 능력이 빅데이터에 있다. 아마 앞으로의 시장은 경계가 불분명해지고 경쟁이 더 치열할 것이며, 데이터 분석 역량이 핵심 경쟁력이 되지 않을까 생각한다. 아마존도 마찬가지이다. 아마존의 출발은 인터넷 서점이었고, 이후에는 클라우드로 돈을 벌고 있다. 이제는 책뿐만 아니라 서비스, 해외여행권 등 다양한 것을 판매하는 유통업체로 성장했다. 고객들이 어떤 종류의 책을 원하는지 추천하는 서비스도 제공한다. 데이터를 분석하여 고객의 마음을 읽을 수 있다면 무엇이든 팔 수 있으므로 산업의 경계가 무너졌다고 할 수 있다. 그래서 규제에 관련해서도 이러한 독과점을 어떻게 해소할 것이냐에 대한 고민이 글로벌 차원으로 전개되고 있다. 상품이든 서비스든 국경이 무의미해지므로 글로벌 경쟁 체제에서도 데이터 분석이 핵심 경쟁력이 될 수밖에 없다.

3. 불확실한 미래를 대비하기 위해 데이터·증거기반 정책에 대한 수요가 높아지고 있는데, 세계 주요 국가들의 데이터 기반 정책은 어떻게 이뤄지고 있는가.

정용찬 본부장 : 데이터 기반 의사결정은 기업으로부터 촉발되었다. 이전에는 통계, 데이터라고 한다면 정부가 가장 막강한 파워를 가졌다. 이집트 로마 시대에도 인구 조사를 실시한 걸 상기해보라. 이렇게 정부가 가장 많은 데이터를 가지고 있었는데 구글, 아마존처럼 빅데이터 기업이 등장하면서 힘이 역전이 된 것이다. 정부는 통상적으로 방문 면접조사를 수행하는 데 조사가 점점 어려워지고 있다. 프라이버시 등 다양한 문제 때문에 대상자가 조사를 꺼리기 때문에 필연적으로 조사결과의 신뢰성이 떨어지고 있다. 이렇게 전통적인 데이터 수집 과정에서 골머리를 앓고 있는 것과 대조적으로 다른 한쪽에서는 자동적으로 데이터가 축적되고 있다. 예를 들어 통계청에서 소비 데이터가 필요할 때 신용카드회사의 데이터는 중요한 정보가 될 수 있다. 결국 정부도 민간에서 생산한 자료도 활용해야 하지 않는가 하는 이야기가 자연스레 나오는 것이다.

우리나라는 주민등록, 등기등본, 출생·사망 신고는 반드시 취합하는 정보이며, 이러한 자료는 정책에 활용되고 있다. 마찬가지 관점에서 민간 자료를 정부정책에 활용해보자는 것이다. 주요 국가의 데이터 기반 정책은 별도로 조사하지 말고 자연스럽게 쌓이는 행정자료, 민간자료, 즉 빅데이터를 활용하자는 것인데, 이를 활용하면 맞춤형 서비스를 만들 수 있다. 그렇게 하려면 법이나 제도가 이를 뒷받침해야 한다. 미국은 위원회를 만들어서 데이터에 기반한 정책, 이를 증거기반 행정이라 표현하는 데 이를 어떻게 활성화시킬 것인가를 연구하고 있다. 여기서 더 나아가 증거기반행정에 대한 법안을 만들었다. 예를 들어 증거기반정책을 실행하는 위원회에는 어떤 사람이 참여하는지, 어떤 과정을 거치는지에 대해 상세하게 규정한 법안을 만든 것이다. 우리나라도 작년에 ‘데이터기반행정법’을 제정했는데 정책을 결정해야 할 때 데이터에 기반해야한다는 것이 법의 취지이다.

한편 데이터 파워 면에서는 점점 더 민간이 앞서나가고 있다. 통신 데이터, 신용카드 정보 등을 모으면 개인의 행동과 생각을 정확히 파악할 수 있다. 유명한 사례 중 하나가 미국의 대형마트에서 학생에게 임신 관련 물품을 할인하는 쿠폰을 발송한 사례이다. 임신 초기의 고객들이 자주 사는 물품들을 저렴하게 구매할 수 있는 쿠폰을 제공했다. 당연히 그 학생의 부모가 항의했는데, 알고 보니 딸이 임신한 것이 사실이었다는 해프닝이었다. 자기 가족보다 기업이 더 잘 알고 있는 이러한 상황은 민간에서 촉발되어 공공 영역으로 퍼지고 있다. 이를 데이터 이코노미라는 표현한다. 이전에는 디지털 이코노미라고 했었는데 결국 데이터를 매개로 하기 때문에 데이터 이코노미라는 표현을 쓰고 있다. 전 산업이 데이터 역량을 기본으로 요구하고 있다. 노르웨이 연어 양식이 어업에서도 대표적인데, 인공지능이 수온을 조절하고 먹이도 자동으로 준다. 농업도 마찬가지다. 도시안의 공장형 생산시설에서 자동으로 온도, 습도, 비료, 일조량을 조절해서 청정 농작물을 재배한다. 이제 데이터 분석이 적용되지 않는 분야를 찾기 어렵다.

4. ICT 기술혁신이 4차 산업혁명을 주도하고 있다. ICT 산업은 빠른 패러다임 전환으로 인해 시의적절한 정책 수립이 중요하지 않나. 작년 「ICT 정책지원을 위한 빅데이터 분석과 예측모형 개발 연구」를 수행하시면서 중점을 두셨던 부분이 있다면 알고 싶다.

정용찬 본부장 : 국책연구기관에서 ICT 분야를 담당하기 때문에 겪는 어려움은 이 분야가 너무 빠르게 변화한다는 점이다. ICT 정책연구자라면 기술 트렌드가 어떻게 변화하는지 파악해야 한다. 만일 블록체인이 중요하게 부상한다면, 경쟁력 있는 산업 육성을 위한 관련 정책을 빠르게 수립해야 하는데 발 빠르게 대응하는 데 한계가 있다. 미래를 예측하는 것이 쉽지 않지만 빅데이터가 등장하면서 뉴스나 블로그 데이터 등을 활용하여 기술 트렌드를 전망하는 데 도움이 되고 있다. 기술 관련 트렌드는 SNS에서도 파악해볼 수 있다. 논문, 특허 등록은 시간이 많이 소요되기 때문에 학술 세미나, 컨퍼런스 등에서 발표되는 내용을 통해 빠르게 정보를 파악할 수도 있다. 새로운 데이터를 활용해서 기술 변화를 빠르게 포착할 수 있지 않을까라는 생각에 착안한 것이 「ICT 정책지원을 위한 빅데이터 분석과 예측모형 개발 연구」다. ICT 기술변화 트렌드를 조기에 발견할 수 있는 모델을 개발하고자 했다. 이상적인 방법으로는 학술대회, 뉴스, SNS에서 발생하는 데이터를 모아서 이를 통해 ICT 분야의 이슈를 조기에 자동적으로 찾아내는 모형을 개발하는 것이다. 핵심은 텍스트 분석이다. 텍스트는 분석하기가 쉽지 않다. 정형화 되어 있는 숫자 데이터와는 속성이 다른데, 텍스트 데이터는 의미를 파악하려면 상황에 따른 어의 분석, 함께 쓰이는 관련 있는 다른 단어를 살펴야 하는 등 기술적으로도 어렵다.

이러한 분석을 잘하는 곳이 기업이다. 우리나라의 네이버를 들 수 있다. 검색을 잘 하려면 약자도 입력해줘야 한다. 예를 들어 ‘현기차’라는 단어를 검색하면 ‘현대기아자동차’와 동일하다고 미리 정의해 놓아야 한다. 자동적으로 이러한 작업이 이뤄지면 좋겠지만 인간의 노동이 필요하다. 초기에는 사람의 노력이 세심하게 들기 때문에 IT기업을 노동집약적이라고 표현하기도 한다. 가짜 정보도 걸러내야 하는 등의 어려움이 있지만 텍스트 분석은 정부출연연구기관이라면 관심을 가질 수밖에 없다. 현재 정보통신정책연구원과 몇몇 연구원이 TF를 통해 경사연 데이터공유플랫폼 구축작업을 진행하고 있다. 우선 국내외 뉴스기사를 공유하고, 연구보고서와 컨퍼런스, 세미나 자료 등을 축적하고 공유한다면 연구 성과를 높일 수 있다. 쉽지는 않겠지만 앞으로 계속 노력을 기울여야 하는 분야이다.

우리나라가 가진 데이터 중에서 세계에서 주목하는 것이 몇 가지 있다. 인구 관련 데이터의 경우 우리나라처럼 잘 정리된 곳을 찾아보기 어렵다. 우리는 주민등록번호로 모든 것을 연결할 수 있는데 다른 나라는 그렇지 않다. 미국과 같은 경우는 데이터 연계 작업을 민간에서 마케팅 목적으로 진행하고 있다. 소위 데이터브로커가 발달되어 있다. 반면 우리나라는 공공 기관이 잘 정비된 데이터를 보유하고 있다. 그래서 해외에서 인구학을 연구하는 전문가들이 우리나라를 굉장히 부러워하는 것으로 알고 있다.

또 하나가 의료 관련 정보이다. 우리나라 국민 대부분은 지역 혹은 직장 건강보험에 가입되어 있다. 개인의 병원기록, 약국 기록, 건강검진 데이터가 연결되어 있다. 제약회사나 생명보험회사도 상품개발에 요긴한 자료인데 자유롭게 활용할 수 있기를 매우 원하고 있다. 미국만 해도 공공보험, 사보험이 나뉘어져 있기 때문에 이렇게 축적된 데이터를 찾기 어렵다.

다른 나라에서 개발된 분석 방법론을 가져다 쓰는 게 생각보다 쉽지 않는 경우도 있다. 의료분야에 도입된 사례 중 ‘왓슨(Watson)'이라는 인공지능 프로그램이 있다. 미국에서도 활발히 활용되고 있고 우리나라도 4~5년 전에 수입해서 쓰고 있다. 그런데 미국인들의 데이터 기준으로 학습되었기 때문에 우리나라 사람에게 적용하기 어려울 수도 있었다. 그래서 우리나라 의료 데이터를 활용하면 우리나라 사람에게 맞는 진단법을 개발할 수 있고, 맞춤형 약 처방도 가능하다. 이를 위해 데이터를 개방해달라는 요구가 계속되고 있다. 하지만 민간이 영리목적으로 활용하는 것에 대한 반대 의견도 있고, 희귀병의 경우 아주 소수만 앓는 병이기에 개인이 특정될 것을 우려하는 목소리도 크다. 데이터를 활용해서 부가가치를 창출할 수 있다고 해도 공개의 수준과 범위를 어느 정도로 할 것인지는 이해당사자마다 의견이 다르므로 합의를 위해서는 시간이 필요하다. 특히 미국과 달리 유럽은 이러한 문제에 정말 민감하다. 2차 세계대전을 겪으면서 개인정보를 보호해야한다는 의식이 강해졌기 때문이다. 데이터 경제 시대에 데이터는 중요한 자산이지만 우리나라 국민들이 어느 선까지 개인 데이터를 활용할 수 있도록 허용할 것인지에 대해서 고민해야 한다. 다른나라의 사례를 주목하면서 데이터 공개와 활용을 위한 사회적 논의가 지속되어야 한다.

5. 작년 12월에는 「2021 대한민국 종합 미래전망대회」를 함께 진행하시기도 했다. 데이터 기반의 지수 개발을 통해 국정방향을 제언하는 행사였는데 연구의 내용과 의의에 대한 견해를 듣고 싶다.

정용찬 본부장 : 미래전망대회를 경제·인문사회연구회와 함께 추진하면서 가장 역점을 둔 것은 국책연구기관들도 본격적으로 데이터 기반 정책 연구를 강화해야 한다는 것이었다. 또한, 미래에 대한 불확실성이 커지기 때문에 데이터 기반 행정이 중요해지고, 예측이 중요해졌는데 국책연구기관이 모여서 각 분야의 전망을 공유해보자는 취지였다. 의의를 종합하자면 정부 정책에서 데이터 증거기반의 트렌드를 유지·발전시켜야 하며, 공유하는 형태를 취해야 한다는 것이다. 또 미래전망대회로 끝나는 것이 아니라 국정운영에 반영하여 정책 수립에도 도움이 될 수 있는 방향으로 나아가고자 한다. 이러한 활동은 국책연구기관의 본연의 의무라 할 수 있다. 전망대회를 통해 단기간, 중장기간별로 어떠한 정책이 중요할 것인지, 어떠한 연구를 수행해야 하는지를 고민하고 확인한다는 점에서 미래전망대회가 중요한 의미를 가지고 있다.

6. 우리나라가 세계적인 ICT 인프라를 보유하고 있는데도 빅데이터 활용도가 낮다는 지적이 있는데, 이에 대한 원인은 무엇이라고 생각하시는가. 또한, 이를 타파하기 위해 어떠한 점이 개선되어야 하는가?

우리나라는 인터넷 보급률 세계 1위, 데이터 생산 능력 세계 5위의 나라이다. 특히 IT분야에서는 우리나라 국민들이 빨리 변화에 적응하기 때문에 대표적인 테스트베드다. 성인 스마트폰 보급률도 세계 1위이기 때문에 문자를 보내고 음악을 듣고 동영상을 감상하고 인터넷쇼핑을 하는 과정에서 다양한 데이터를 생산하므로 데이터 자산 관점에서 잠재력이 있다. 남은 문제는 공유와 활용에 대한 사회적 합의가 필요하고, 합의하는 과정에서 개인 차원, 공동체 차원, 국가 차원에서 다양하게 고민해야 한다는 것이다. 이러한 것은 법을 바꾼다고 해서 개선하기는 어렵다. 다만 우리나라는 위기에 적극 대응하려는 성향이 있어 바람직한 방향으로 나아갈 수 있을 것이라고 생각한다.

대표적인 성공 사례가 코로나19 방역이다. 갑론을박이 있을 수도 있지만 우리나라는 국제적으로 방역에 성공한 국가 중 하나이다. 사망자 비율이 낮은 편이고 전면적인 통제를 하지 않고도 방역을 진행하고 있다. 이렇게 성공하게 된 배경은 방역당국, 의료기관, 행정기관이 확진자 정보를 공유하는 데이터 공유 시스템을 구축했기 때문이다. 데이터 3법은 알아도 코로나 3법은 모르는 분들도 많다. 지난해 초 통과한 코로나3법에는 감염자 정보를 전자 시스템을 통해 공유하는 조항이 있다. 감염자의 동선 파악 등을 실시간으로 공유할 수 있게 된 것이다. 이는 사스, 메르스 위기를 겪으면서 필요성에 대해 논의된 내용을 코로나19 계기로 법으로 만든 것이다. 초반에는 확진자의 개인정보가 아주 상세하게 보도되기도 했다. 그렇다보니 국가인권위원회에서도 코로나19 확진자의 과도한 사생활 공개를 지양하라고 권고하기도 했다. 해외 몇몇 국가에서도 이러한 시스템을 시도하려고 했으나 프라이버시 침해라는 의견이 우세해서 실패했다. 결국 인식의 차이이다. 물론 코로나19를 막기 위해서는 불가피하다고 생각하는 사람들도 있지만 빅브라더처럼 한 기관이 모든 정보를 장악할 수도 있다는 우려에 대해서는 관심을 가지고 살펴보아야 한다.

7. 마지막으로, 디지털 경제의 확산으로 인해 빅데이터는 현대 사회에서 중요한 자산으로 자리 잡았다. 데이터 활용 및 관리는 향후 국가의 경쟁력도 크게 좌우할 것으로 예상하는데, 향후 정부, 연구기관의 역할에 대한 견해를 들어보고 싶다.

최근 주요국 정부의 고민은 유사하다. 데이터를 활용해서 경제를 어떻게 활성화할 것인가이다. 다만 미국은 이런 점에서 여유가 있다. 구글, 아마존, 페이스북 등 데이터 기업이 대부분 미국에 있다. 2위는 중국이다. 알리바바, 바이두 등의 기업이 포진하고 있다. 데이터 관점에서도 미·중 양강 체제라고 할 수 있다. 최근 미국은 프라이버시보호에 대해 강조하고 있다. 데이터 기업의 독과점 문제를 제기하고 있다. 유럽의 분위기는 데이터 공유를 통한 경제 활성화에 역점을 두고 있다. 영국도 작년 여름에 처음으로 국가 데이터 전략을 내놨다. 데이터 공용 활용을 통해 경제 활성화를 최우선으로 한다고 선언했다.

우리나라는 경제활성화와 행정지능화 두 가지 모두를 지향해야 한다. 데이터 기반 행정법도 제정했지만 유럽처럼 경제활성화에 무게중심을 두고 있는 듯 보인다. 경제성장 문제, 일자리 문제 해결을 위해 데이터를 활용해보자는 것이다.

정부의 입장이 그러하다 보니 연구기관도 사실상 민간이 가진 데이터를 어떻게 공유하고 활용할 것인지를 고민해야 한다. 데이터는 보유 기업 입장에서는 중요한 자산이지만 데이터는 개인으로부터 생산되었기 때문에 데이터 가치 산정을 비롯해서 데이터로 얻은 부가가치의 공정한 배분에 이르기까지 해야할 과제가 많다. 이 과정에서 이해당사자가 어떻게 협업할지에 대해서 치열하게 고민해야 한다. 정부는 스마트 정부, 스마트 행정을 구현하기 위해 노력하고 있다. 국책연구기관은 이를 위한 전략 수립은 물론 새로운 방법론 개발을 위해 노력해야 한다.

결국 민간에서는 데이터를 잘 활용해서 부가가치를 창출하고, 정부도 데이터를 활용하여 정확한 정책과 맞춤형 행정 서비스를 제공하는 것이 일상화될 것이다. 사회 문제도 융·복합화 되는 추세이기 때문에 연구과제도 복합적인 주제로 변화할 것이다. 이를 풀려면 어느 한 기관의 힘으로는 부족하다. 공공이 행정자료는 물론 민간 데이터를 사용하고 민간이 공공데이터를 활용하듯이 연구 영역에서도 산학연 모두가 협업할 때 좋은 결과가 나올 것으로 생각한다. 민간과 공공이 협력하여 국가경쟁력을 도약시킬 연구가 이뤄지길 기대한다.

<그리고 이 보고서, 서적을 추천합니다>