spark 모르는 옵션 정리

spark 모르는 옵션 정리

2024. 6. 21. 10:16ㆍBig Data

spark.task.maxFailures
- task의 실패 최대 횟수 (default 4)
spark.stage.maxConsecutiveAttempts
- 노드 scale 조정, 트리거로 인한 노드 종료 등의 이유로 stage가 실패하게 되면 설정된 count 만큼 허용한다.
- 예를 들어 작업 중 어떤 한 노드를 강제 종료하게 되면 task 실패 횟수에 1이 추가되는게 아니라 maxCounsecutiveAttempts에 1이 추가가 된다. 설정된 값만큼의 실패 예외를 허용해 준다.
spark.shuffle.file.buffer
- shuffle 시 파일 출력 스트림 버퍼 크기
spark.sql.files.maxPartitionBytes
- input partition의 크기를 설정한다. (default 128mb (134217728))
- file이 크다면 input partition의 크기만큼 쪼개고 file이 설정 값보다 작다면 작은 크기 자체가 1개의 partition이 된다.
spark.sql.shuffle.partitions
- join, groupby 등의 연산 시 쓰이는 partition
- partition 크기에 맞추어 설정해야 함.
- shuffle 시 메모리가 부족하게 되면 데이터를 직렬화 한 후 hdfs에 저장하고, 이 후 다시 역직렬화 해서 처리하는 작업을 하게 되는데 이 과정에서 task fail 이 많이 발생함.
- shuffle 시 파티션의 크기가 100~200 mb를 유지시키도록 설정하는 게 중요

Ju Factory