Transform Nodes
Transform 단계는 Extract 단계에서 수집된 데이터를 목적에 맞는 형태로 가공 및 정규화하는 과정이다.
즉, “데이터를 어떻게 변환할 것인가”를 정의하는 단계이며, 이후 Load 및 온톨로지 생성 과정의 품질에 직접적인 영향을 미친다.
시스템에서는 다양한 데이터 변환 요구를 처리하기 위해 다음과 같은 Transform 노드를 제공한다.
Add Constant Column
- 모든 레코드에 대해 고정된 값을 가지는 새로운 컬럼을 추가하는 노드
- 데이터 분류, 상태값 지정, 메타 정보 추가 등에 활용된다
Drop Columns
- 불필요하거나 사용하지 않는 컬럼을 제거하는 노드
- 데이터 크기 최적화 및 이후 처리 단계의 복잡도 감소에 기여한다
Rename Columns
- 기존 컬럼명을 의미에 맞게 변경하는 노드
- 온톨로지 구조 또는 표준 스키마에 맞추기 위한 전처리 단계로 사용된다
Select Columns
- 지정한 컬럼만 유지하고 나머지는 제거하는 노드
- 필요한 데이터만 선별하여 처리 효율성과 가독성을 향상시킨다
Apply Expression
- 수식(Expression)을 기반으로 새로운 컬럼을 생성하거나 기존 컬럼을 가공하는 노드
- 데이터 변환, 계산, 조건 처리 등 다양한 로직을 적용할 수 있다
(예: 값 계산, 문자열 처리, 조건 기반 값 생성 등)
Cast
- 컬럼의 데이터 타입(Data Type)을 변환하는 노드
- 예: 문자열 → 숫자, 숫자 → 날짜 등
- 데이터 정합성 확보 및 후속 처리 단계의 오류 방지를 위해 사용된다
Parse JSON String
- JSON 문자열 형태로 저장된 데이터를 파싱하여,
내부 필드를 개별 컬럼으로 분리하는 노드 - 비정형 또는 반정형 데이터를 구조화된 형태로 변환하는 데 유용하다
설계 가이드
-
Transform 단계는 단순 가공을 넘어, 온톨로지 구조에 적합한 데이터 형태를 만드는 핵심 단계이다.
-
불필요한 데이터는 사전에 제거하고,
필요한 데이터는 명확한 의미를 가지도록 정제하는 것이 중요하다. -
컬럼명, 데이터 타입, 값의 형태는 이후 오브젝트 및 속성 정의와 일관되도록 설계해야 한다.
-
복잡한 변환 로직은 여러 Transform 노드를 조합하여 단계적으로 구성하는 것을 권장한다.
Last updated on