본문 바로가기

Big Data29

[HBASE] 간단 명령어 이직하기 전에는 Hbase를 접할 경우가 1도 없었는데, 이직 후 Hbase를 가지고 노는 일이 많기에 사용법을 좀 정리해 보기로 했다. 우선 접속! 아래와 같이 접속하면 된다. $> hbase shell 만약에 customizing한 config 파일이 있고 이 설정대로 접속하고 싶다면? $> hbase --config shell ex) hbase --config /working/hbase shell 위의 명령이 성공하면 hbase shell 내부로 진입 한 것을 확인할 수가 있다.우선 snapshot list를 확인해 보자. hbase> list_snapshots 화면에 snapshot 리스트들이 출력되는 것을 확인할 수가 있다.불필요한 snapshot은 아래 명령을 써서 지워주자. hbase> de.. 2018. 9. 26.
[SPARK] RDD를 DataFrame으로 변환해주기 file을 읽어서 RDD로 만든 다음 해당 RDD를 DataFrame으로 변환해 주려고 한다. 일단 json 데이터를 파일로 읽어서 아래와 같이 RDD로 바꿔 보자. val conf = new SparkConf().setAppName("test") val sc = new SparkContext(conf)val rdd = sc.textFile("test.json") 해당 rdd를 df로 변환하자. df로 변환하기 위해서는 SQLContext를 사용해야 하는데, 이를 위해 maven에 spark-sql을 추가해 주자. org.apache.spark spark-sql_2.10 1.4.1 이제 rdd를 df로 변환해 주자. import org.apache.spark.sql.SQLContext val sqlCon.. 2018. 3. 28.
[HBASE] 테이블 읽어보기 HBASE에 있는 table이 제대로 읽어지는지 확인이 필요해서 아래와 같이 코드를 작성했다.HBASE Client와 server version은 모두 0.98.11을 사용했다. (낮아도 한~~참 낮다 -_-) HBaseConfiguration으로 hbase 설정을 해 준후, HBaseAdmin을 이용해서 table list를 가져오자.Scan 객체를 생성한 후 table의 row마다 print를 해줘서 해당 row 내용을 읽는다.참고로 위에서 선언한 객체들은 다 deprecated 된 상태이다. (-_-!!!!)테스트 용으로 대충 만든 거라... 실제 서비스용으로 사용하기 위해서는 다른 코드를 사용하는 것이 정신 건강에도 더 좋을 듯 하다. 2017. 11. 10.
[SPARK] word count (pyspark) 이번에는 spark를 이용하여 word count를 해보려고 한다. 참고 reference는 아래와 같다. http://nbviewer.ipython.org/github/spark-mooc/mooc-setup/blob/master/lab1_word_count_student.ipynb#-(4f)-Count-the-words- 기본적인 개요는 아래와 같다. 1. base RDD와 pair RDD 만들기 2. pair RDD counting 하기 3. 단어 개수 세기와 평균 값 구하기. 4. 파일을 읽어서 word count 하기 1. base RDD와 pair RDD 만들기 아래와 같이 base RDD를 만들어 본다. from pyspark import SparkContext sc = SparkContext.. 2015. 11. 25.
[SPARK] tutorial (pyspark) Apache Spark with the Python http://nbviewer.ipython.org/github/spark-mooc/mooc-setup/blob/master/spark_tutorial_student.ipynb 사이트에 있는 내용을 번역함. Spark Context - spark에서 통신은 driver와 executor 사이에서 발생한다. driver는 실행에 필요한 spark job들을 가지고 있으며, 이러한 spark job들은 executor에서 실행되기 위해 task 단위로 쪼개진다. - spark와 API를 사용하기 위해서는 SparkContext 사용이 필요하다. SparkContext가 생성되면, 마스터에게 동작 가능한 core들을 요청한다. 마스터가 동작 가능한 core들을.. 2015. 11. 24.
[SPARK] docker로 스파크 설치하기 (우분투 14.04) DOCKER를 이용해서 우분투 14.04 환경에서 SPARK를 설치해보자. (이게 가장 쉬우니깐..) https://hub.docker.com/r/jupyter/all-spark-notebook/ DOCKER HUB에서 위의 사이트 이미지가 spark 사용하기에는 가장 적합한 것 같다. (ipython notebook도 설치 되어 있고, scala, python2, python3 모두 연결되어 있음) 아래 명령어로 docker hub에서 이미지를 가져온다. $> sudo docker pull jupyter/all-spark-notebook 위의 명령어를 실행하면 아래와 같이 이미지를 다운받고 extract 하는 과정을 볼 수가 있다. image 다운이 다 되었으면, 아래의 명령어를 통해 다운 받은 ima.. 2015. 11. 23.
[Lucene] 이클립스에 올리기 - 사전 환경 설정 Ant 설치하기 Ant는 JAVA 기반의 Build 프로그램으로써, xml 기반의 스크립트를 이용하여 Build를 할 수 있도록 기능을 제공한다. 다양한 환경에서도 동일한 스크립트 기반으로 Building을 할 수 있다는 장정이 있다.Ant 다운 받기 Ant 환경 설정Path = c:\apache-ant-1.8.4/bin ANT_HOME = c:\apache-ant-1.8.4 ivyIDE 설치하기ivyIDE는 라이브러리의 의존성 관리를 위한 프로그램으로 ant와 함께 많이 사용된다. 1. Eclipse의 Help의 Install New Software를 클릭한다. 2. Work with에 http://www.apache.org/dist/ant/ivyde/updatesite URL을 입력한다.3. Apac.. 2013. 2. 7.
[Redis] BRPOPLPUSH Blocking 한 상태에서 tail의 값을 POP하고 POP 한 값을 다른 list 의 head에 PUSH 하는 함수 redis> RPUSH list1 1 2 3 (integer) 3 redis> BRPOPLPUSH list1 list2 0 "3" redis> LRANGE list1 0 -l 1) "3" 2012. 10. 22.
[Redis] BRPOP RLPOP와 반대로 list의 tail부터 가져오는 방법. 나머지는 BLPOP와 동일하다. redis> RPUSH list1 1 2 3 (integer) 3 redis> BRPOP list1 0 1) "list1" 2) "3" 2012. 10. 22.