인공지능 기반 「청탁금지법」 유권해석 자동질의응답시스템 모델 개발 연구

연구성과

스팟라이트 주목해야하는 콘텐츠!

협동연구보고서

인공지능 기반 「청탁금지법」 유권해석 자동질의응답시스템 모델 개발 연구

국가비전과 전략연구
위원회 및 연구단

파일 다운로드

글자크기 설정

인공지능 기반 「청탁금지법」 유권해석 자동질의응답시스템 모델 개발 연구 대표이미지

주관한국법제연구원
발행기관경제ㆍ인문사회연구회
발간년도 2023년
페이지수228
연구자이유봉

주요내용

요약/내용

최근 급격한 인공지능의 기술의 발전으로 공공업무에 인공지능을 도입하려는 시도가 증가하고 있다. 인공지능의 공공업무 활용은 업무의 효율성을 높임으로써 행정자원을 효율적으로 이용함과 동시에 대국민 서비스에 있어 시간, 인력 등 기존의 한계를 획기적으로 극복할 수 있을 것으로 기대하고 있다. 더불어 정확하고 일관된 의사결정으로 정부나 공공영역에 대한 국민의 신뢰를 높일 수 있을 것으로 기대된다.
2015년 3월에 제정된 「부정청탁 및 금품수수 금지에 관한 법률」(이하, 「청탁금지법」으로 약칭함)은 공직자 등에 대한 부정청탁 및 공직자 등의 금품 등의 수수(收受)를 금지함으로써 공직자 등의 공정한 직무수행을 보장하고 공공기관에 대한 국민의 신뢰를 확보하기 위하여 제정되었다. 이 법은 공무원, 공공기관 임직원, 학교 임직원, 언론사 임직원 및 그 가족 등 사적이해관계자에 적용됨으로써 상당한 수의 국민들이 잠재적 법 적용대상자가 될 수 있다.
「청탁금지법」의 시행 이후 이 법의 적용 여부 등에 대한 질의 및 적용을 둘러싼 법 해석 요구가 지속되어 왔으며, 이에 국민권익위원회는 2015년부터 홈페이지에서 청탁금지법 질의응답 코너를 운영해 오고 있으며 2023년 5월 초까지 총 1만 건이 넘는 질의와 응답 사례가 있었다.
한편, OpenAI가 개발한 대화형 인공지능 챗봇인 ChatGPT가 2023년 1월 사용자가 1억명 이상이 되면서 전세계에서 가장 주목받는 인공지능 서비스가 되었다. ChatGPT의 등장은 챗봇개발 연구지형에 큰 영향을 미치게 되었다. 본 연구에 있어서도 연구계획시 예상하지 못했던 이런 환경적 변화를 최대한 반영하고자 하였다.
본 연구는 「청탁금지법」에 대한 이해와 적용 등 법해석 수요에 적시에, 적확히 응답함으로써 법 준수 증가와 원활한 법제도 운영에 도움이 될 수 있도록, 「청탁금지법」에 관한 국민권익위원회의 유권해석 사례와 관련 법정보를 기반으로 지식정보를 구축하고, 국민권익위원회 유권해석에 대한 질의 및 응답을 지원하기 위한 인공지능 알고리즘(자연어처리 모델)에 기반한 자동 질문 인식 및 응답 시스템 모델의 개발을 목적으로 하였다.
이를 위하여 이를 위하여 인공지능, 챗봇, QA(Question Answering, 질의응답시스템), 초거대 AI 관련 연구, 생성형 AI 관련 관련 기존 연구와 연구현황에 대하여 조사하였다. 본 연구와 관련된 인공지능 기술로 기계학습, 딥러닝, 로봇공학, 자연어처리 관련 선행연구, 챗봇이 적용된 국내외 법률서비스 관련 공공서비스, 최근 Chat GPT의 등장과 더불어 주목받는 초거대 AI, 생성형 AI의 연구현황을 살펴보았다.
「청탁금지법」은 총 24조로 구성되어 있으며, 부정청탁의 금지(제5조), 금품등의 수수 금지(제8조), 외부강의등의 사례금 수수 제한(제10조) 및 관련 상황에 대하여 신고하는 것을 주요 규율 수단으로 규정하고 있으며, 그밖에 이행확보를 위한 제재수단들을 규정하고 있다. 이 법의 주요 내용에 해당하는 주제는 법 적용 대상 그리고 부정청탁과 금품수수에 관한 규율과 신고 및 위반시 제재사항에 관한 것이다. 그리고 자주 질의되는 문제로는 외부강의 관련 사항, 금품수수에 있어 예외적으로 허용되는 금품등 해당 여부, 음식물·선물 제공 관련 사항, 경조사 관련 사항 등에 관한 사례들이 있다. 이에 관한 기본 지식은 주로 국민권익위원회와 청렴연수원에서 공무원 및 대 국민들에 대한 정보제공을 위하여 발행한 자료를 통하여 공식적인 해석례로 제시된 해설들과 사례들을 통하여 도출하였다.
이러한 기본 지식을 전제로 본 연구에서는 「청탁금지법」의 규율체계와 국민권익위원회의 유권해석사례를 분석한 후 주요 질의주제에 관한 법에서 규정된 법률요건들을 구조화하여 인공지능모델의 학습용 질의응답데이터를 설계하였다. 유권해석사례의 큰 비중을 차지하는 주제인 부정청탁, 금품수수 사례에 관하여 법률요건에 해당하는 사례와 미해당 사례를 각각 나누어 생성하였고, 최종적으로 총 44,000여 개의 사례 데이터 집단을 구축하였다.
질의응답시스템 기술은 고객 서비스, 데이터 분석, 정보 검색 등 다양한 분야에서 활용되고 있다. 본 연구에서는 챗봇과 같은 질의응답시스템을 완벽하게 구사하는 것을 목표로 두는 것이라기 보다는, 향후 챗봇 시스템의 설계를 위하여 질의응답시스템 알고리즘을 어떻게 설계하면 좋을지에 대한 고민을 반영하여 프로토타입을 구현하여 정교화하는 방안에 대해 시사점을 얻는 것에 집중하였다. 이러한 「청탁금지법」 유권해석 질의응답시스템에 대한 챗봇 프로토타입 제작을 위하여, 본 연구에서는 BERT와 GPT-4.0, 두 가지 다른 언어 모델을 기반으로 한 프로토타입 질의응답시스템을 설계하여 구현하였고, 양 모델에 대한 비교 분석을 진행하였다.
2022년 10월 연구 착수시 국내에 ChatGPT가 등장하지 않았던 상황에서 당초 본 연구 진행 방향을 챗봇에 주로 쓰이는 BERT 알고리즘을 이용하여 모델개발을 진행하는 것으로 계획하였으나, 2023년 3월, Open AI의 GPT-4.0이 chatGPT를 통해 공개되면서 문장 생성형 AI에 대한 관심이 폭발적으로 증가하게 되었고, 이에 따라 현재의 상황에서 AI기반 챗봇모델 개발에 있어서의 당면한 문제점과 시사점을 도출하기 위하여 GPT 기반의 프로토타입 개발에 관한 연구를 추가하여 진행하였다.
본 연구 설계 진행은 2023년 5월까지는 BERT 알고리즘을 이용하여 프로토타입 질의응답시스템을 제작하여 구성하였고, 이를 전제로 한 데이터셋을 구축하기 위하여 크롤링을 이용하여 구축된 데이터셋에서 제목, 내용, 답변을 기준으로 데이터셋을 구성하고 전처리를 하였다. BERT 응답 생성 방안은 정확도를 구성하는 방향으로 진행하였다. 그러나 2023년 6월부터 9월까지는 GPT-4.0을 이용하여 질의응답시스템을 제작하여 구성하였고 이러한 경우 학습데이터의 설계를 어떻게 하여야 하는지에 대한 안정화된 이론이 정착되어 있지 못한 상황에서 다양한 유형의 데이터 학습을 진행하였다.
이러한 BERT기반 모델과 GPT기반 모델의 설계와 구축을 통해 양 방식의 접근법에 대해 다음과 같은 차이점을 도출할 수 있었다. 첫째, BERT는 양방향으로 문맥을 파악하는 반면, GPT-4.0은 주로 단방향(과거에서 미래로) 문맥을 이해한다는 점에서 차이가 있으며, 둘째, GPT기반 모델은 기존의 AI와는 달리 프롬프트에 따라 데이터셋 구성도가 달라야 한다는 점에서도 차이가 있다. 셋째, BERT는 주로 특정 작업을 위해 진행되는 반면, GPT-4.0은 다양한 자연어처리 작업에 유연하게 적용될 수 있으며, 프롬프트 엔지니어링에 더 많은 유연성을 제공한다. 양자의 차이는 아래 <표>과 같다.
<표> BERT와 GPT 기반 챗봇의 항목별 비교

항목
BERT
GPT 3.5 / 4.0
데이터 전처리
문장, 쌍, 마스킹
연속적인 텍스트
학습 방향성
양방향
단방향
문맥 이해
양쪽 문맥 이해
주로 앞 문맥을 위주로 이해
목적
문장 분류, 관계 파악
텍스트 생성
전이학습 여부
일반적으로 필요
일반적으로 필요
데이터 라벨링
분류작업 등으로 필요
일반적으로 불필요
응답 생성 방법
추가 디코더
직접적인 텍스트로 생성 가능
메모리 사용량
작음
높음
응답 다양성
생성보다 정확도가 목적이기 때문에 제한적
생성형 AI이기 때문에 다양함
프롬프트 엔지니어링
제한적으로 특정 작업에 맞춰서 진행
유연하고 다양하게 프롬프트 설계 가능
프롬프트 복잡성
토큰별로 태그를 맞춰 전처리 진행
자연어로도 프롬프트 처리가 가능함
데이터셋
많은 데이터셋을 필요로 함
많은 데이터셋은 필요 없으나,
제대로 된 프롬프트 설계가 필요함
성능 지표
정확도, F1 score 등
퍼블렉서티, BLEU 점수 등

출처: 저자 작성
「청탁금지법」 유권해석 질의응답시스템에 대한 챗봇 프로토타입의 완성 후에 현실적으로 서비스가 가능한 시스템이 될 수 있도록, 데이터-인공지능-서비스 레이어에 걸친 기술이 통합된 플랫폼의 설계안을 제시하였다.
본 연구에서 목표로 하는 서비스를 위한 인공지능 플랫폼은 기본적으로 BERT, GPT 등의 자연어 처리를 기반으로 하고 있으므로, 많은 실험과 그 실험과 다른 실험 결과의 비교가 개발 과정에서 필요하게 된다. 자연어처리를 고도화 하기 위한 방법으로는 사전학습, 프롬프트 엔지니어링, 미세조정, 강화학습 등이 있을 수가 있는데, 이러한 방법들을 선택적으로 수행함으로써 모델을 고도화할 수 있도록 구성하였다.
또한 이를 위하여 상기 데이터에서 처리한 하이퍼 파라미터, 모델의 가중치 입력 및 평가지표에 대한 정보의 출력과 이를 바탕으로 한 자연어처리모델 평가기능을 포함하도록 하여 시스템 내에서 최선의 구성을 찾아낼 수 있는 방식으로 설계안을 제시하였다.
인간의 데이터 학습을 통한 편견과 생성형 AI의 특성인 환각 현상, 그리고 개인정보 유출문제 등은 인공지능에 대한 많은 우려를 낳고 있는데, 본 연구는 사회 속의 인공지능을 목표로 LLMOps의 확장을 통해 안전하고 신뢰할 수 있으며 공정한 인공지능을 위한 정책을 수행하는 장치를 포함하는 방식으로 구성된 플랫폼안을 제시하였다.(아래 그림 참조)
위와 같이 구성된 「청탁금지법」 유권해석 질의응답시스템에 대한 프로토타입이 현실에서 바로 대 국민 서비스로 이어지는 데는 추가적인 노력이 필요할 것이다. 프롬프트 엔지니어링, 미세조정 등을 통해 생성된 데이터 및 추가적으로 개발되는 데이터의 학습과정이 이루어지고 현장의 해석실무적 입장에서 관련 실무가들과 전문가들의 피드백을 통한 고도화 과정을 거친다면 향후 보다 안정적인 답변이 가능한 질의응답모델이 구현될 것으로 기대한다.
[그림] 「청탁금지법」 유권해석 질의응답시스템 파이프라인 설계안

출처: 저자 작성.

키워드 : 인공지능, AI, 청탁금지법, 유권해석, 질의응답, 법데이터, QA, ChatGPT, BERT, 리걸테크, 플랫폼

제1장 연구 개요
제1절 연구 배경 및 목적
제2절 연구 체계 및 방법
제2장 선행연구
제1절 인공지능 관련 선행연구
제2절 챗봇 관련 선행연구
제3절 QA(Question Answering, 질의응답시스템) 관련 연구
제4절 초거대 AI 관련 연구
제5절 생성형 AI 관련 연구
제6절 시사점
제3장 「청탁금지법」의 입법 및 제도운영
제1절 입법체계 및 내용
제2절 제도운영 수단 및 방법
제3절 주요 쟁점 사항
제4절 시사점
제4장 「청탁금지법」 유권해석 관련 질의응답 분석 및 데이터집합 설계
제1절 「청탁금지법」의 구조화
제2절 「청탁금지법」 유권해석 데이터의 분석
제3절 데이터집합의 설계와 생성
제4절 시사점
제5장 「청탁금지법」 유권해석 자동질의응답시스템 프로토타입 모델
제1절 챗봇 데이터 기획
제2절 모델별 연구 방법론
제3절 추진 전략
제4절 시사점
제6장 데이터 운영 시스템
제1절 시스템 구축
제2절 플랫폼 발전 동향
제3절 목표 플랫폼 구축 방안
제4절 시사점
제7장 결론
결론
￭ 참고문헌