User Tools

Site Tools


public:bridging_big_data_and_ai

빅데이터와 인공지능을 연결시켜 주는 플랫폼

(Bridging Big Data and Artificial Intelligence)

  • 아이리스는 빅데이터와 인공지능을 연결시켜주는 플랫폼입니다.
  • 아이리스 플랫폼에는 빅데이터를 처리하고 가공/분석하고, 궁극적으로 인공지능을 적용하는 것까지의 일련의 도구들을 유기적으로 구성되어 있습니다.

일반적인 빅데이터 분석 및 기계학습 절차

(Steps to Big Data Analysis and Machine Learning)

[1단계] : 빅데이터 스토리징 단계 (Data Storaging & ETL)

빅데이터를 수집, 저장, 인덱싱 하는 단계

  • 데이터 수집 : 각종 원천 시스템으로부터 데이터를 수집하는 단계입니다. 표준 데이터 연동 프로토콜을 사용하기도 하고 (FTP, ODBC/JDBC), 에이전트를 사용하여 수집할 수도 있습니다. 대규모 수집에 필요한 병렬처리와 수집상에 발생하는 각종 오류/재처리 등을 지원합니다.
  • 데이터 전처리 : 수집된 데이터의 포맷 변경, 정규화(Normalization), 결측치(Missing Data) 처리, 필터링, 취합(Aggregation, Correlation)등을 수햄함으로써, 데이터가 분석 가능한 형태로 변환하는 작업을 합니다.
  • 데이터 저장/색인 : 보관, 관리, 검색, 분석 등의 다용도 목적으로 데이터를 일정 규격에 맞춰서 적재(Loading)하는 단계입니다. 고속 처리를 위해서 적절하게 파티셔닝(Partitioning) 또는 색인(Indexing)이 고려되어야 효율적인 데이터 사용이 가능합니다.

[2단계] : 빅데이터 디스커버리 단계 (Data Discovery & Exploration)

고속 검색을 통해 원시 빅데이터를 탐색하고 직관을 얻는 단계

  • 데이터 탐색 : 원천 데이터(Raw Data)에 대한 이해가 부족한 단계에서, 개별 데이터를 검색하고 확인하는 과정입니다. 데이터 포맷과 규격에 제약이 없는 임의적인 검색(Full Text Search)이 가능해야 데이터 탐색이 원활합니다.
  • 부분 데이터 변환 : 탐색된 데이터의 일부를 고급분석에 활용 가능한 형태로 가공하고 변환하고 준비하는 과정입니다.
  • 그래프, 기초통계 : 탐색된 데이터에 대한 시각화(그래프 출력) 또는 기초적 통계(Descriptive Statistics)를 확인해 봄으로써, 데이터에 대한 이해도를 높이는 작업입니다.
  • 시각적 분석 : 탐색된 데이터에 대해 임의적으로 축을 선택하고 선택된 축에 따라 분석하는 피벗(Pivot)분석을 수행하며, 그 결과를 그래프나 시각화 도구를 이용해서 시각화 함으로써, 데이터를 이해합니다.
  • 분석데이터 샘플링 : 대규모 빅데이터 원천으로부터 기계학습(Machine Learning)을 적용하고 심층적인 분석 모델링을 수행할 대상 데이터의 일부 샘플을 구하는 단계입니다.

[3단계] : 고급분석/기계학습 모델링 단계

빅데이터를 샘플링하여 고급분석 및 기계학습 모델링을 하는 단계

  • 분석 모델링 : 샘플링된 데이터를 특정 목적에 맞게 분석하는 분석 모델을 개발하는 단계입니다. 각종 스크립팅 도구를 이용하여 모델 선정, 모델의 파라메터 선정 작업을 수행합니다.
  • 기계학습 모델링 : 기계학습의 주요 적용인 '군집화(Clustering)', '분류(Classification)', '예측(Prediction)', '이상탐지(Anomaly Detection)' 등을 하기 위한 기계학습 알고리즘을 찾고 적절한 파라메터를 선정하고, 데이터를 학습시킨 결과를 생성하는 단계입니다.

[4단계] : 워크플로우 적용단계

개발된 모델을 업무에 맞도록 워크플로우로 구성하고적용하는 단계

  • 기계학습 분석업무 프로세스 정의 : 샘플링된 데이터를 이용해서 도출해낸 기계학습 모델을 반복적으로 실제 데이터(라이브 스트림 데이터)에 적용하기 위해서, 해당 모델에 입력데이터를 제공한다거나 모델의 결과를 또다른 분석 모델에 연결해서 추가적인 분석을 한다든가 하는 일련의 분석과정을 프로세스로 정의하는 단계입니다.
  • 기계학습 분석업무 운용 : 실제 데이터(라이브 스트림 데이터)에 분석 프로세스가 적용되어 상시적으로 운용되도록 보장하는 각종 스케줄링 및 관리 시스템입니다.

[5단계] : 정보공유 단계

생성된 데이터를 시각화 하고 효과적으로 공유하는 단계

  • 대시보드, 보고서 : 워크플로우로 적용된 데이터 분석 결과를 적절한 형태로 정리해서 표시함으로써 최종 사용자 관점의 요약된 정보를 제공합니다. 감시/모니터링에 사용될 수 있는 대시보드(Dashiboard) 또는 주기적 보고서(Report) 형태로 제공하여, 실질적인 업무에 분석 결과가 활용될 수 있도록 합니다.
  • 고급 시각화 : 데이터 분석 결과를 사용자 관점에서 이해가 쉽도록 하기 위해 제공되는 각종 시각화/표현 방식들이 제공됩니다.

빅데이터 분석 단계별 현장에서의 어려움과 이를 해결하기 위한 핵심요소

분석 단계 핵심 요소 현장에서의 문제점 IRIS 제공 방안
1단계 : 빅데이터 스토리지 * 대용량 데이터 처리
* 분산 처리
* 실시간 처리
* 고성능 처리
* 용량, 성능, 안정성의 한계
* 실시간 처리의 한계
* 데이터 액세스 관리 표준의 부재
* 고성능 실시간 처리 플랫폼 제공 (메모리/디스크 하이브리드 처리 솔루션)
* 표준화된 인터페이스(SQL)제공
* 검증된 통합적 솔루션 제공 (HW/SW 통합제공, 오픈소스 통합제공)
2단계 : 빅데이터 디스커버리 * 대용량 분산 데이터에 대한 검색 요구
* 자유로운 검색 및 탐식의 필요
* 탐색과 이해를 위한 초벌 분석기능 필요
* 빅데이터 스토리지와 분석 도구와의 괴리
* 분석가가 직접 데이터에 접근하지 못하는 문제점
* 빅데이터와 분석 도구를 밀접히 결합해서 제공
* 전문검색(Full Text Search)를 통한 즉각적인 검색의 지원
* 시각화 도구 및 각종 필터링 명령어 제공
* 효율적인 데이터 샘플링 기능 제공
3단계 : 고급분석/기계학습 모델링 * 분석가에게 익숙한 도구의 필요
* 각종 분석 사례의 공유 필요
* 데이터 샘플링과 분석 모델링의 원활한 연결 필요
* 분석가가 익숙한 도구가 실 데이터에 직접 적용되지 않음
* 손쉬운 샘플 데이터 획득의 어려움
* 각종 고급분석 도구의 결합 제공(R-Studio, Jupyter, Zeppelin)
* 분석 모델의 스크립트 공유 환경 제공
* 원활한 데이터 샘플링 및 분석 스크립팅에 공급 보장
4단계 : 워크플로우 * 데이터 흐름과 분석 모듈을 결합한 절차 정의
* 데이터 소스에 적합한 전처리 과정 제시 필요
* 워크플로우 관리 기능 필요
* 데이터 흐름과 별개인 워플로우 시스템 * 데이터와 통합된 워크플로우 제공
* 워크플로우 정의/관리의 프레임웍 제공
* 워크플로우 상태 관리 기능 제공
5단계 : 정보공유 * 분석 결과의 최종 사용자 관점의 뷰 필요
* 요구에 맞는 정보 표현 방식의 변경 필요
* 특정 뷰에 국한된 하드코딩 작업 * 사용자 정의형 대쉬보드 및 리포팅 기능 제공
* 대쉬보드 및 리포트의 공유 기능 제공

IRIS 플랫폼을 통한 분석 단계별 해결방안

  • 다음 그림은, 전반적인 빅데이터 분석 플로우에서, 아이리스가 커버하는 영역을 표시한 도식입니다.
  • 회색 영역은 모비젠 개발 솔루션이고, 녹색영역은 오픈소스를 차용한 영역이고, 붉은 색 영역은 다른 회사 제품을 연동한 부분입니다.


public/bridging_big_data_and_ai.txt · Last modified: 2019/07/10 14:26 by jhnam