User Tools

Site Tools


public:아이리스를_이용한_분석하기_첫걸음

개인 PC의 csv 파일을 IRIS HDFS에 넣어서 분석하기

작업 흐름도


개요

로컬 PC 에 있는 데이터파일(csv 등)을 아이리스 HDFS브라우저 를 통해 아이리스의 HDFS 에 저장한 후 데이터브라우저대화형분석 메뉴를 통해서 데이터 분석하는 예시

flow

데이터 insert:CSV 파일을 HDFS로 저장하기

IRIS 메뉴 선택 : HDFS조회 - HDFS브라우저

HDFS브라우저 에서 업로드 선택

파일 업로드

HDFS브라우저 에서 파일 확인


데이터 탐색:데이터브라우저에서 탐색하기

1. 데이터브라우저 - 데이터모델 생성하기


1.1 데이터모델 화면


1.2 HDFS 브라우저에서 파일 선택 - 10개 라인 샘플로 데이터 내용 및 분리기호 확인


1.3 분리기호 변경 후 데이터 컬럼 타입 설정

  • 목록샘플로 10개 라인만 보여주며, 데이터 필드 분리기호가 콤마(,)가 디폴트이다.
  • 목록샘플 데이터 확인 후 분리기호를 입력하고 엔터키를 치면 입력한 분리기호에 맞춰서 필드가 분리되어 나온다.

  • 데이터모델 이름과 설명 입력
  • 시간 컬럼이 있는 데이터의 경우 시간 컬럼의 TIMESTAMP 포맷을 입력한다.
  • 시간 컬럼은 IRIS 의 메뉴에서 시간 설정의 기준이 되는 컬럼이다.

  • 각 컬럼에 맞는 데이터 타입으로 수정한다.(디폴트 데이터 타입은 TEXT)
  • 숫자 컬럼은 INTEGER 로 설정하면 데이터를 정수로 변환하므로 소수점 이하의 데이터로 검색 및 계산을 하려면 REAL 로 설정

2. 데이터브라우저 - 검색 메뉴에서 데이터 탐색하기

2.1 검색 메뉴 기능 개요


2.2 검색 메뉴 사용 시 주의할 점

데이터 모델과 검색

* 데이터 모델은 IRIS DB 테이블에서 생성하거나 HDFS파일에서 생성할 수 있다.

* IRIS DB 테이블에서 생성하는 경우에는 PARTITION, INDEX KEY가 설정되어 있는 테이블의 데이터인 경우 적절한 검색 조건에 따라 빠르게 검색 결과가 나올 수 있다.

* HDFS 파일에서 생성된 데이터 모델은 INDEX, KEY가 설정되지 않으므로 검색 결과가 조회되는 데이터의 양에 따라 시간이 소요된다.

  • 검색 시 시간을 전체시간 이 아니라 검색되는 데이터 건수에 따라 적절한 시간 범위를 설정해주는 것이 좋다.

* 컬럼별 데이터 개수 상위 10개를 보는 기능은 분석에서 유용하지만, 데이터의 양이 많고, HDFS 데이터모델처럼 인덱스가 없는 경우에는 주의해서 사용해야 한다.

2.3 검색 커맨드 창 팁

Command Syntax

* 파이프(|) 로 구분된 일련의 명령어 묶음

* Command Syntax 도움말에 상세한 문법과 example 이 있다.

search keyword | stats count

select sql 과 filter
command 구문 예제

2.4 집계 데이터 생성하기

검색 command 에서 sql 과 stat 을 이용한 집계 데이터 생성

* | where substr(SYSTEM_NAME, 2, 3) != 'URM' | where substr(SYSTEM_NAME, 1, 3) != 'URM' | stats count(SUM_SCORE) as ad_code_cnt by EVENT_TIME,SYSTEM_NAME,SUM_SCORE | stats sum(SUM_SCORE) by EVENT_TIME, SYSTEM_NAME | sort EVENT_TIME

결과를 HDFS 로 내보내기

2.5 피벗/고급시각화 메뉴로 연결하여 탐색 하기

1. 검색에서 피벗으로 연결하기

2. 피벗 실행 예시
public/아이리스를_이용한_분석하기_첫걸음.txt · Last modified: 2018/08/10 16:28 by jhnam