Big data를 다루는데 있어서 발생하는 3가지 문제
Facebook에서 일별 500TB 생성, Twitter는 8TB 생성
high-speed data computation
다양한 포맷의 데이터를 분석할 수 있어야한다.
ETL Pipeline ETL Pipeline이란 input source로 부터 데이터를 추출하고(extracting), 데이터를 변환하고, database, data mark, data warehouse에 저장하는 과정들을 말한다. 출처 Extract, Transform, Load 의 약자이다. Extract 데이터는 다양한 source...
Avro 특정 언어에 종속되지 않은 언어 중립적 데이터 직렬화 시스템 하둡 Writable의 주요 단점인 언어 이식성을 해결하기 위해 만든 프로젝트 다른 시스템과 비슷하게 언어 독립 스키마로 기술 하지만 특정 스키마를 사전에 알지 못하더라도 해당 스키마에 부합하는 데이터를 읽고 쓸 수 있음 에이...
Batch Processing vs Stream Processing Batch processing Stream processing 데이터가 특정 시간동안 수집됨 데이터가 계속 수집됨 데이터가 모두 수집되고 나서 처리됨 데이터...
Data warehouse, Data Lake
G1 Garbage Collector
Comments powered by Disqus.