'Big Data' 카테고리의 글 목록

[KAFKA] topic reassign 하기

2025.05.23 - [Big Data] - [KAFKA] kafka broker scale out 하기 topic 이전 -> 기존 broker server remove 위의 순서대로 진행할 예정이다. 일단 broker scale out을" data-og-host="yujuwon.tistory.com" data-og-source-url="https://yujuwon.tistory.com/entry/KAFKA-kafka-broker-server-%EA%B5%90%EC%B2%B4-%ED%95%98%EA%B8%B0" data-og-url="https://yujuwon.tistory.com/entry/KAFKA-kafka-broker-server-%EA%B5%90%EC%B2%B4-%ED%95%98%EA%B8%..

2025.05.24

[KAFKA] kafka broker scale out 하기

kafka를 서비스 중인 broker server의 연식이 다 되어서 교체할 필요가 생겼다. 교체 순서는 우선 broker scale out -> topic 이전 -> 기존 broker server remove 위의 순서대로 진행할 예정이다. 일단 broker scale out을 위해 신규 서버에 kafka를 설치한다.kafka 설치는 https://kafka.apache.org/downloads 해당 사이트에 들어 간 후 자신이 원하는 버전의 kafka를 다운 받으면 된다. 다운을 다 받았다면 압축을 푼 후, kafka/config 폴더 내의 server.properties 파일을 수정해 주자. 우선 수정해야 할 것은 broker.id를 수정해 준다.기존 kafka broker에 scale out을 하..

2025.05.23

[KAFKA] kafka-ui helm chart로 설치 하기

kafka의 효율적인 관리를 위해 kafka-ui를 설치해 보자.kafka-ui는 k8s 상에서 설치하는 것을 전제로 했기 때문에 helm chart를 이용해서 설치하도록 한다. 우선 helm에 kafka-ui를 설치하기 위해 helm repo를 추가해 준다. $> helm repo add kafka-ui https://provectus.github.io/kafka-ui-charts 차트에 value 값을 수정하기 위해 value 데이터를 저장한다. $> helm show values kafka-ui/kafka-ui > override-values.yaml override-values.yaml을 열어서 아래와 같이 내용을 수정해 준다. .....yamlApplicationConfig: kafka: ..

2025.05.22

[Spark] history server 장애

새벽에 갑자기 namenode가 내려갔다는 장애 알림 메시지를 받게 됨!!! 일단 일어나서 부랴부랴 네임노드를 다시 재 시작해주고.. (다행히 ha 설정이 되어 있어서 서비스 상에서는 문제가 없었음) 자세히 왜 내려 갔는지 문제점을 파악하기 시작!! 일단 문제가 발생한 원인은 아래의 그래프에서 찾을 수 있었다. 바로바로 과도한 cpu 사용으로 인한 namenode shutdown 저렇게 과도하게 cpu를 먹고 있는게 과연 무엇을까 서버 접속해서 top를 쳐본 결과 spark history server에서 2000% 넘게 cpu를 사용하고 있는 걸 확인했다. 왜 history server가 2000%를 먹고 있는지 확인해 보기 위해 hdfs에 있는 history log list를 확인하려고 접근하려는 순..

2025.04.14

airflow hdfs provider 설치하기

airflow에서 hdfs를 깔끔하게 접근하는 방법이 없을까 고민하다가 airflow provider란 걸 발견했다.airflow provider는 aws나 azure, google cloud 등을 airflow에서 좀 더 쉽게 연결해 줄 수 있도록 제공해주는 plugin이라고 생각하면 쉬울 것 같다. 일단 내가 설치한 airflow 환경에서 hdfs provider가 있는지 여부부터 살펴 보자.airflow UI에서 admin 클릭하면 현재 airflow에서 제공되는 provider의 목록들이 나타난다. 불행하게도 hdfs 관련된 provider는 보이지 않는다.그럼 이제 hdfs provider를 직접 설치해 보도록 하자. 설치를 하기 위해서는 airflow Docker 이미지의 customize..

2024.08.21

spark 모르는 옵션 정리

spark.task.maxFailurestask의 실패 최대 횟수 (default 4)spark.stage.maxConsecutiveAttempts노드 scale 조정, 트리거로 인한 노드 종료 등의 이유로 stage가 실패하게 되면 설정된 count 만큼 허용한다.예를 들어 작업 중 어떤 한 노드를 강제 종료하게 되면 task 실패 횟수에 1이 추가되는게 아니라 maxCounsecutiveAttempts에 1이 추가가 된다. 설정된 값만큼의 실패 예외를 허용해 준다.spark.shuffle.file.buffershuffle 시 파일 출력 스트림 버퍼 크기 spark.sql.files.maxPartitionBytesinput partition의 크기를 설정한다. (default 128mb (1342177..

2024.06.21

Ju Factory

Ju Factory

태그

최근글

댓글

공지사항

아카이브

Big Data(35)

티스토리툴바