StreamSQL 실시간 데이터 스트림을 처리가 가능한 SQL을 확장한 쿼리 언어이다. SQL은 주로 테이블을 다루는 용도이지만, StreamSQL은 스트리밍 데이터를 처리하는 능력까지 갖고있다. 스트림 데이터에대한 쿼리는 지속적으로 증가하는 결과값이 리턴된다. 세부적인 연산들 SELECT - 스트림에 있는 데이터를 대상으로 함수를 ...
MongoDB Overview
용어 Databases Collections : rdb에서 행과 같은 개념 Documents : rdb에서 열과 같은 개념 Replication Sets Single Master구조 프라이머리 노드의 데이터 베이스 인스턴스 사본을 백업 ...
CAP이론
분산 데이터 스토어는 다음 세가지 성질중 2가지 이상을 모두 만족할수는 없다는 이론 Consistency : 모든 읽기쿼리는 가장 최근에 변경된 데이터를 읽거나 만약 읽을수 없다면 에러를 수신해야함. Availability : 모든 요청은 에러를 수신해서는 안되며, 대신 가장 최근에 변경된 데이터를 읽으리라는 보장은 ...
OLTP,OLAP
Online Transaction Processing(OLTP) 데이터의 무결성을 위해 트랜잭션 단위로 처리하는 방식. 무수히 많은 작업이 발생시 오류 없이 일관적으로 처리하고 실시간으로 확인시켜줘야 함을 의미. 디비에 트랜젝션 데이터를 캡쳐,가공,저장 banking and credit card ac...
Hive와Impala
Hive와 Impala에 대한 소개 Hive와 Impala는 하둡시스템으로부터 데이터를 추출하기 위해서 SQL과 유사한 인터페이스를 제공하는 툴이다. Impala vs Hive Impala Hive Google의 Dremel project에 의해 영감을 받아서 201...
Adhoc Query
Adhoc쿼리란 코드가 실행될때마다 변경되는 쿼리를 말한다. 다음의 코드 예를 보자. var newSqlQuery = "SELECT * FROM table WHERE id = " + myId; 위 코드를 보면 myId의 값에 따라서 쿼리문이 변경됨을 알수있다. ad hoc query의 반대로는 Stored Procedure같은 predefin...
Apache Pig
Why Pig? mapper와 reducer를 작성하는것은 시간이 많이 걸림. Pig는 Pig Latin이라는 scripting 언어를 도입하여 SQL과 유사한 문법으로 map,reduce 스탭을 정의할수 있게한다. pig와 mapReduce를 혼용할수도 있다.
Elastic Stack
Elastic Stack KIBANA BEATS LOGSTASH X-PACK ELASTICSEARCH Kibana analytics & visualization platform elastic search 데시보드, pie chart, line chart등을 생성가능 실시간...
Elastic Search Overview
Elasticsearch use case 검색엔진 구현 Application Performance Management(APM) : 어플리케이션 로그, 시스템 통계정보 분석(error, CPU/memeory usage) 대용량 데이터 분석 Anomality Detection ...
Trouble Shooting(Hadoop)
에러로그 대처방법 pip install mrjob==0.5.11시 다음 에러가 발생 - Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-AF7G__/setuptools/ pi...