Big Data
spark 모르는 옵션 정리
유주원
2024. 6. 21. 10:16
- spark.task.maxFailures
- task의 실패 최대 횟수 (default 4)
- spark.stage.maxConsecutiveAttempts
- 노드 scale 조정, 트리거로 인한 노드 종료 등의 이유로 stage가 실패하게 되면 설정된 count 만큼 허용한다.
- 예를 들어 작업 중 어떤 한 노드를 강제 종료하게 되면 task 실패 횟수에 1이 추가되는게 아니라 maxCounsecutiveAttempts에 1이 추가가 된다. 설정된 값만큼의 실패 예외를 허용해 준다.
- spark.shuffle.file.buffer
- shuffle 시 파일 출력 스트림 버퍼 크기
- spark.sql.files.maxPartitionBytes
- input partition의 크기를 설정한다. (default 128mb (134217728))
- file이 크다면 input partition의 크기만큼 쪼개고 file이 설정 값보다 작다면 작은 크기 자체가 1개의 partition이 된다.
- spark.sql.shuffle.partitions
- join, groupby 등의 연산 시 쓰이는 partition
- partition 크기에 맞추어 설정해야 함.
- shuffle 시 메모리가 부족하게 되면 데이터를 직렬화 한 후 hdfs에 저장하고, 이 후 다시 역직렬화 해서 처리하는 작업을 하게 되는데 이 과정에서 task fail 이 많이 발생함.
- shuffle 시 파티션의 크기가 100~200 mb를 유지시키도록 설정하는 게 중요
- spark.shuffle.io.retryWait
- shuffle에서 fetch 시 재시도 대기 시간
- spark.shuffle.io.maxRetries
- shuffle fetch 재시도 횟수
- spark.driver.maxResultSize
- collection 등으로 driver에 데이터가 몰릴 때의 최대 크기
- spark.network.timeout
- spark의 모든 network 상호 작용 간의 timeout 시간
- spark.ui.retainedTasks
- 가비지 처리 전에 spark ui와 status api가 유지해야 할 task의 개수
- spark.ui.retainedStages
- 가비지 처리 전에 spark ui와 status api가 유지해야 할 stage의 개수
- spark.ui.retainedJobs
- 가비지 처리 전에 spark ui와 status api가 유지해야 할 job의 개수
- spark.ui.enabled
- spark application의 web ui를 실행할지 말지 여부
- spark.scheduler.mode
- job 실행 시 queue 사용 정책을 위한 schedule 모드. 대표적으로 FAIR 가 있음.