왜 하둡을 쓰는가? 빅데이터 처리가능 - eg. 하루에 terabyte Horizontal scaling으로 계속 성능을 linear하게 향상가능 Disk seek time 감소 Hardware failure에 대해 유연함 ...
HDFS(The Hadoop Distributed File System) 데이터가 전체 클러스터에 분산되어 저장되도록 함 데이터에 빠르게 접근하고 분석하도록 함 대용량의 파일들을 여러 블럭으로 쪼갬, Hadoop 2.0의 경우, block당 default 128MB. 여러 컴퓨터에 ...
MapReduce 데이터를 두가지 단계로 처리한다 : map phase, reduce phase. map phase에는 HDFS로 부터 데이터를 읽는다. 각각의 dataset은 input record라고 부른다. reduce phase에는 실제 계산이 수행되고 결과가 저장된다. 그리고 저장 타깃은 database,HDFS 등이 될수 있습니다. ...
Zeppelin
예전에 사용되던 시스템들
Comments powered by Disqus.