1. 파이프라인
파이프라인 빌더는 다양한 외부 데이터 소스로부터 데이터를 수집하고, 이를 온톨로지 구조에 맞게 변환하여 시스템에 적재할 수 있도록 지원하는 기능이다.
여기서 온톨로지화란, 외부 데이터를 시스템이 이해할 수 있는 구조로 정규화하여 오브젝트(Object) 및 관련 정보로 생성하는 과정을 의미한다.
대부분의 파이프라인은 다음과 같은 관점을 기준으로 설계된다.
데이터를 어디에서 가져오고(Extract),
어떤 방식으로 변환한 뒤(Transform),
어디에 적재할 것인가(Load)
즉, 파이프라인 빌더는 일반적인 ETL(Extract, Transform, Load) 흐름을 기반으로, 외부 데이터를 내부 온톨로지 체계에 맞게 통합하는 역할을 수행한다.
가이드
공통
-
데이터를 조회하거나 적재하기 위해서는, 사전에 [파이프라인 > 데이터 관리] 메뉴에서 외부 시스템과의 연결을 설정해야 한다.
-
하나의 파이프라인에는 반드시 1개의 Start 노드와 1개의 End 노드가 포함되어야 한다.
-
편집 화면에서 특정 노드를 삭제하려면 해당 노드를 선택한 뒤 Backspace 키를 입력한다.
-
임시 저장(Draft) 상태가 없는 경우, 배포 없이 편집 화면을 이탈하면 작업 내용이 저장되지 않으며 처음부터 다시 작성해야 한다.
-
대부분의 노드는 데이터 프리뷰(Data Preview) 기능을 지원한다.
다만, 다음 노드에서는 데이터 프리뷰를 사용할 수 없다.Custom NodeMongo UpsertCreate Ontology
-
데이터 프리뷰는 최대 100건까지 지원한다.
자주 사용하는 온톨로지화 파이프라인 예시
다음은 외부 데이터를 수집하여 온톨로지로 생성할 때 자주 사용하는 대표적인 파이프라인 구성이다.
Start >> Data Retrieval >> Transform (선택) >> Mongo Upsert >> Create Ontology >> End