What Is Spark? Open-source distributed general-purpose cluster-computing framework. How to start data engineering projects? Choose any framework, let’s say Kafka. Write some codes using that ...
Resilient Distributed Dataset(RDD) RDD는 데이터의 immutable distributed collection, 클러스터의 노드들에 분할되어있고 병렬적으로 처리됨. 여러 분산 노드에 걸쳐서 저장되는 변경이 불가능한 데이터(객체)의 집합으로 각각의 RDD는 여러개의 파티션으로 분리가 됩니다. 즉, 스파크 내에 저장된 데이터...
def flattenSchema(schema: StructType, prefix: String = null): Array[Column] = { schema.fields.flatMap(f => { val colName = if (prefix == null) f.name else (prefix + "." + f.name) ...
PySpark UDF
Data warehouse, Data Lake
Comments powered by Disqus.