Intro
Semantic Web 이라는 용어를 친구를 통해 또는 수업시간에 종종 듣곤 했지만, 해당 주제를 가지고 개설되는 교내 수업이 별로 없을 뿐더러 이 분야를 연구하시는 교수님도 많지 않아 접할 수 있는 기회가 많지 않았습니다. 하지만 서로 다른 속성을 가진 데이터를 유기적으로 결합시킨다면 데이터의 활용도는 더욱 증가할것이며, 해당 주제를 가지고 연구하는 분야 중 하나가 Semantic Data Map 이라는 것을 알게 되었습니다. 뿐만 아니라 해당 주제 내에서 서로 다른 데이터를 기술할 수 있게끔 도와주는 데이터 카탈로그와, 데이터 카탈로그의 활용을 위해 등장한 DCAT (Data Catalog Vocabulary) 표준 역시 알게 되었습니다.
이 글은 데이터 카탈로그가 필요한 이유를 서두로 시작하여 데이터 카탈로그 사이의 상호 운용성 지원을 위한 RDF(Resource Description Framework) 어휘를 제공하는 DCAT 모델에 대해 설명하겠습니다.
Data Catalog
메타데이터
빅데이터라는 표현을 많이 사용하고 있는 현재 각기 다른 분야에서 수없이 많은 데이터는 쏟아져 나오고 있습니다. 하지만 이러한 데이터는 형식, 구조 등이 서로 일치하지 않기 때문에 데이터를 하나의 프레임 안에서 관리하는 것은 어렵습니다. 그럼에도 불구하고 수없이 많은 데이터를 각기 다른 객체로 관리하고 융합하지 않는 것은 데이터를 연계하여 창출할 수 있는 유의미한 가치를 버리는 것과 동일합니다.
따라서 데이터 그 자체의 형식, 구조 등이 일치하지 않는다면, 이러한 틀을 억지로 일치시키려는 노력 보다는 데이터를 기술할 수 있는 데이터를 만드는 것이 더 바람직한 생각일 수 있습니다. 따라서 데이터를 기술할 수 있는 데이터를 메타데이터라고 하고, 우리는 데이터의 효율적 관리를 위해 메타데이터에 엄격한 표준 등을 부여하면 데이터 관리 뿐만 아니라 검색, 연계 등이 비교적 쉽게 이루어질 수 있습니다.
데이터 카탈로그
앞서 언급한 것처럼 현재 세계 각지에서 데이터를 오픈하고 있지만 서로 다른 데이터가 호환되지 않는 모습을 보이고 있습니다. 따라서 메타데이터를 사용해서 각 데이터 간의 호환이 가능하게 만들어줄 뿐만 아니라, 메타데이터를 이용하여 데이터 검색을 잘 할 수 있게 도와주면 분산되어있는 데이터의 접근성이 향상될 수 있습니다.
데이터 카탈로그는 이러한 메타 데이터를 잘 관리할 수 있게끔 도와주는 장치라고 생각하면 됩니다. 기존에는 엔지니어만 데이터 속성을 알고 접근했다면, 데이터 카탈로그를 통해 엔지니어가 아닌 사람들 역시 데이터를 검색하고 알아볼 수 있게 됩니다. 즉 데이터 카탈로그를 사용하면 서로 다른 저장소에 있는 데이터의 검색과 연계가 쉬워지며, 엔지니어가 아니더라도 데이터를 바라보며 분석 등을 할 수 있다는 의미입니다.
RDF
앞서 서로 다른 데이터의 속성 정보들이 다르기 때문에 데이터를 기술할 수 있는 메타데이터가 필요하다고 했습니다. 하지만 사람들마다 정의하는 메타데이터의 어의, 구문, 구조등이 서로 다를 수 있으며, 이는 서로 다른 메타데이터 역시 하나의 프레임 안에서 관리되지 않는다는 부작용을 초래할 수 있습니다. 즉 데이터의 통합을 위해 메타데이터가 등장하였지만, 메타데이터의 통합을 위해 메타메타데이터가 등장해야 한다는 재귀적인 모순이 발생하게 됩니다.
RDF (Resource Description Framework) 는 위와 같은 메타데이터의 공통 규칙 지원을 위해 등장하였습니다.
RDF 의 사전적 의미는 웹상에 산재되어 있는 자원의 정보를 표현하기 위한 규격입니다. 현재는 표준을 정의하고 장려하는 기구인 W3C 에서 관리하는 프레임워크가 되었습니다. RDF 에서 자원을 표현할 때는 Subject - Predicate - Object 형태로 문장을 정의하여 표현하게 됩니다. 다양한 Syntax 와 Serialization format 이 존재하는데 구체적인 설명은 생략하겠습니다.
DCAT
DCAT 은 웹 상에 산재되어 있는 데이터 카탈로그 간 상호 운영성 촉진을 위해 개발된 RDF Vocabulary 표준입니다. 데이터 카탈로그의 기술을 위해 DCAT 을 사용하게 되면 다음과 같은 점들이 좋습니다. 1) 다양한 데이터 카탈로그의 메타데이터를 쉽게 사용하고 융합할 수 있습니다. 2) 웹 상에서 데이터가 쉽게 찾아질 수 있습니다. 3) 분산되어 있는 다양한 데이터를 데이터 카탈로그의 관리를 통해 접근할 수 있습니다. 4) 동일한 쿼리와 구조로 다양한 데이터에 접근할 수 있습니다.
아래 그림은 2019년 3월 8일자로 업데이트 된 DCAT Class 구조를 나타낸 그림입니다. 데이터 리소스 뿐만 아니라 데이터 카탈로그, 데이터셋, 데이터 서비스 및 데이터 배포까지 다양한 클래스 및 클래스 간의 관계를 묘사하고 있습니다.
DCAT 은 위와 같은 다양한 장점을 제공해주고 있지만 현재까지 완벽히 정의된 표준은 아니며 지속적으로 변화하고 있습니다. 다만 다양한 데이터의 효율적 기술과 통합이라는 목표 아래에 더욱 더 발전하는 것을 보았을 때 미래에는 DCAT 표준을 이용하여 웹 상에 데이터를 접근할 수 있는 기대를 해볼 수 있겠습니다.