mapper와 reducer를 작성하는것은 시간이 많이 걸림.
Pig는 Pig Latin이라는 scripting 언어를 도입하여 SQL과 유사한 문법으로 map,reduce 스탭을 정의할수 있게한다.
pig와 mapReduce를 혼용할수도 있다.
왜 하둡을 쓰는가? 빅데이터 처리가능 - eg. 하루에 terabyte Horizontal scaling으로 계속 성능을 linear하게 향상가능 Disk seek time 감소 Hardware failure에 대해 유연함 ...
HDFS(The Hadoop Distributed File System) 데이터가 전체 클러스터에 분산되어 저장되도록 함 데이터에 빠르게 접근하고 분석하도록 함 대용량의 파일들을 여러 블럭으로 쪼갬, Hadoop 2.0의 경우, block당 default 128MB. 여러 컴퓨터에 ...
MapReduce 데이터를 두가지 단계로 처리한다 : map phase, reduce phase. map phase에는 HDFS로 부터 데이터를 읽는다. 각각의 dataset은 input record라고 부른다. reduce phase에는 실제 계산이 수행되고 결과가 저장된다. 그리고 저장 타깃은 database,HDFS 등이 될수 있습니다. ...
Elastic Stack
Adhoc Query
Comments powered by Disqus.