Home
Study Log
Cancel

[NAVER DEVIEW 2020] Bye Oracle, Hello PG : 쇼핑검색플랫폼, MSA로 새옷을 갈아입다 정리

기존의 문제점 오라클 데이터베이스가 Single Point Of Failure 오라클 데이터베이스의 scale up 비용증가 오라클 데이터베이스의 부하증가 PostgreSQL가 Oracle에 비해 좋은점 Distributed Database CDC 파이프라인...

Write-ahead logging

Write-ahead logging 컴퓨터과학에서 write-ahead logging(WAL) 은 데이터베이스 시스템에서 atomicity와 durability를 제공하기위한 기술중 하나이다. 변경정보가 로그로 먼저 기록되고, Stable Storage에 반드시 기록되어야하고 그리고 데이터베이스에 기록된다. Stable Storage란 wri...

JAR

JAR(Java ARchive) 여러 Java Class 파일들과 그와 연관된 metadata와 resources(text,images,etc)를 배포를 위해 하나의 파일로 모으기 위해 사용되는 패키지 파일 포맷 JAR파일들은 Java-specific한 manifest file를 포함하는 압축파일이다. 보통 jar 파일 익스텐션을 갖고 있다...

Oozie

Oozie 하둡테스크들을 스케줄링및 실행하는 시스템 workflow 설정 단계 각각의 단계가 독립적으로 잘 동작하는지 확인 잡에대하여, HDFS에 디렉토리를 생성 workflow.xml파일 생성 및 HDFS폴더에 두기 workflow.xml이 필요한 변수정보들을 정의하는 job.properties를 생성하기 ...

Zookeeper

Zookeeper 클러스터내에서 동기화되어야하는 정보들을 기록 어느 노드가 마스터인가? 작업들이 어느 워커에 할당되어있는가? 현재 이용가능한 워커는 무엇인가? 클러스터내에 partial failure를 회복시키기 위해 사용가능 HBase, High-Availability ...

YARN,MESOS,TEZ

YARN YARN은 클러스터에 컴퓨팅 리소스들을 관리하고, HDFS는 클러스터의 리소스 저장공간을 관리 아키텍처 동작방식 어플리케이션이 클러스터에 작업을 분배하기 위해서 Resouce Manager와 통신 데이터 로컬리티를 명시함 - 어느 HDFS블럭(들)을 처리하고자 하는가? YARN은 HDF...

CDH vs HDP

CDH vs HDP CDH : Cloudera Hadoop Distribution HDP : Hortonworks Data Platform Cloudera(CDH를 만든회사) 와 Hortonworks(HDP를 만든회사)가 합병을 하여 현재 Cloudera로 불리고 있다. 합병된이후로 Cloudera Data Platform (CDP)...

Hadoop Query Engine

Query Engine Apache Drill 비관계형 디비(또는 파일스토어)를 위한 SQL쿼리 엔진 Hive, MongoDB,HBase flat JSON or HDFS상의 Parquet 파일, S3, Azure, 구글 클라우드, 로컬 파일 시스템 ...

Kafka configuration 정리

config 설명 auto.offset.reset latest : 가장 마지막 offset부터, earliest : 가장 처음 offset부터, none : 해당 consumer group이 가져가고자 하는 topic의 consumer offset정보가 없으면 ex...

Kafka api정리

API정리 api 설명 KafkaConsumer.poll(Duration) broker에 데이터를 가져오도록 요청하고 나서 duration timeout이 날때까지 데이터가 브로커로부터 가져오지 못하면 즉시 빈 collection을 반환한다.

Trending Tags