개인 PC의 csv 파일을 IRIS HDFS에 넣어서 분석하기
작업 흐름도
개요
로컬 PC 에 있는 데이터파일(csv 등)을 아이리스 HDFS브라우저 를 통해 아이리스의 HDFS 에 저장한 후 데이터브라우저 나 대화형분석 메뉴를 통해서 데이터 분석하는 예시
flow
데이터 insert:CSV 파일을 HDFS로 저장하기
IRIS 메뉴 선택 : HDFS조회 - HDFS브라우저
HDFS브라우저 에서 업로드 선택
파일 업로드
HDFS브라우저 에서 파일 확인
데이터 탐색:데이터브라우저에서 탐색하기
1. 데이터브라우저 - 데이터모델 생성하기
1.1 데이터모델 화면
1.2 HDFS 브라우저에서 파일 선택 - 10개 라인 샘플로 데이터 내용 및 분리기호 확인
1.3 분리기호 변경 후 데이터 컬럼 타입 설정
목록샘플로 10개 라인만 보여주며, 데이터 필드 분리기호가 콤마(,)가 디폴트이다.
목록샘플 데이터 확인 후 분리기호를 입력하고 엔터키를 치면 입력한 분리기호에 맞춰서 필드가 분리되어 나온다.
2. 데이터브라우저 - 검색 메뉴에서 데이터 탐색하기
2.1 검색 메뉴 기능 개요
2.2 검색 메뉴 사용 시 주의할 점
데이터 모델과 검색
* 데이터 모델은 IRIS DB 테이블에서 생성하거나 HDFS파일에서 생성할 수 있다.
* IRIS DB 테이블에서 생성하는 경우에는 PARTITION, INDEX KEY가 설정되어 있는 테이블의 데이터인 경우 적절한 검색 조건에 따라 빠르게 검색 결과가 나올 수 있다.
* HDFS 파일에서 생성된 데이터 모델은 INDEX, KEY가 설정되지 않으므로 검색 결과가 조회되는 데이터의 양에 따라 시간이 소요된다.
* 컬럼별 데이터 개수 상위 10개를 보는 기능은 분석에서 유용하지만, 데이터의 양이 많고, HDFS 데이터모델처럼 인덱스가 없는 경우에는 주의해서 사용해야 한다.
2.3 검색 커맨드 창 팁
Command Syntax
* 파이프(|) 로 구분된 일련의 명령어 묶음
* Command Syntax 도움말에 상세한 문법과 example 이 있다.
search keyword | stats count
select sql 과 filter
command 구문 예제
2.4 집계 데이터 생성하기
검색 command 에서 sql 과 stat 을 이용한 집계 데이터 생성
* | where substr(SYSTEM_NAME, 2, 3) != 'URM' | where substr(SYSTEM_NAME, 1, 3) != 'URM' | stats count(SUM_SCORE) as ad_code_cnt by EVENT_TIME,SYSTEM_NAME,SUM_SCORE | stats sum(SUM_SCORE) by EVENT_TIME, SYSTEM_NAME | sort EVENT_TIME
결과를 HDFS 로 내보내기
2.5 피벗/고급시각화 메뉴로 연결하여 탐색 하기
1. 검색에서 피벗으로 연결하기
2. 피벗 실행 예시