이 같은 상황을 보자, 당신은 처음에 RDD를 만들었습니다 그리고 그것은 N 파티션을 가지고 있으며, 그 RDD에 당신은 필터 변환을 적용한, 스파크는 RDD의 파티션에 변환을 적용그래서 파티션 내부의 데이터가 완전히 필터링 된 경우 그런 다음 스파크는 처음에 RDD를 만드는 동안파티션 의 수를 동일하게 유지하며, 이 시나리오는 모든 좁은 변환에 대해 동일합니다(셔플링이 필요하지 않은 변환). 응용 프로그램 제출 가이드는 클러스터에 응용 프로그램을 제출하는 방법을 설명합니다. 즉, 응용 프로그램을 JAR(Java/Scala의 경우) 또는 .py 또는 .zip 파일 집합(파이썬의 경우)으로 패키징하면 bin/spark-submit 스크립트를 사용하여 지원되는 클러스터 관리자에게 제출할 수 있습니다. 원본 데이터 집합의 고유한 요소를 포함하는 새 데이터 집합을 반환합니다. 중복 데이터를 제거하는 것이 좋습니다. 예를 들어 RDD에 요소(스파크, 스파크, 하두롭, Flink)가 있는 경우 rdd.distinct() 요소(스파크, 하두롭, Flink)를 제공합니다. 다음 예제에서 작업에 아래 데이터 집합을 사용 합니다. 이 예제에서는 데이터베이스에 저장된 테이블을 읽고 모든 연령대의 인원수를 계산합니다. 마지막으로 계산된 결과를 JSON 형식으로 S3에 저장합니다.

간단한 MySQL 테이블 “사람”이 예제에서 사용되며 이 테이블에는 “이름” 및 “나이”라는 두 개의 열이 있습니다. 이러한 예제는 Spark API에 대한 간략한 개요를 제공합니다. Spark는 임의의 Java 또는 Python 개체를 포함하는 분산 데이터 집합의 개념을 기반으로 합니다. 외부 데이터에서 데이터 집합을 만든 다음 병렬 작업을 적용합니다. 스파크 API의 구성 블록은 RDD API입니다. RDD API에는 이전 데이터 집합을 기반으로 새 데이터 집합을 정의하는 변환과 클러스터에서 실행하는 작업을 시작하는 작업의 두 가지 유형이 있습니다. Spark의 RDD API 외에도 데이터프레임 API 및 머신 러닝 API와 같은 고급 API가 제공됩니다. 이러한 고급 API는 특정 데이터 작업을 수행하는 간결한 방법을 제공합니다. 이 페이지에서는 RDD API를 사용하는 예제와 높은 수준의 API를 사용하는 예제를 보여 드리겠습니다.