참고로 빌드했던 0.11에서 나타났던 현상이고 0.12버전에서는 해결된것으로 보인다.

어떤 현상이었냐면 아래와 같이 파티셔닝을 위해 폴더를 구성했지만,

파티셔닝하지 않고 '/tajo/sample_data' 를 '/exadata/m_dw_ad_day' 를 location 으로 잡았을 경우를 의미한다.

(즉, 자식폴더에는 파일이 없고, 손자폴더에 파일이 있는구조)


[user@master.sa lib]$ hadoop fs -ls /tajo/sample_data/
Found 8 items
drwxr-xr-x   - user supergroup          0 2015-08-26 10:32 /tajo/sample_data/stat_dt=20150818
drwxr-xr-x - user supergroup 0 2015-08-26 10:32 /tajo/sample_data/stat_dt=20150819
drwxr-xr-x - user supergroup 0 2015-08-26 10:32 /tajo/sample_data/stat_dt=20150820
drwxr-xr-x - user supergroup 0 2015-08-26 10:32 /tajo/sample_data/stat_dt=20150821


참고로 hive에서는 아래와 같은 쿼리를 날리면, 모두 0건으로 나온다. tajo에서는 검색조건이 없을 경우 데이터가 조회되는 버그가 있었다.

버그리포팅을 해야하나 싶었는데, 다행히 새버전 나와서 빌드해서 해보니 0.12버전에서는 해결된것으로 보인다.


  • tajo 0.11 버전에서 단순조회시 결과 (결과있음, 잘못된 결과임)
default> select * from hive.t_test limit 5;
stat_dt,  name,  cnt
-------------------------------
20150818,  aaaa,  11   
20150818,  bbbb,  41
20150818,  cccc,  67
20150818,  dddd,  63
20150818,  eeee,  178
(5 rows, 0.057 sec, 49.4 GiB selected) 
  • tajo 0.11 버전에서 tajo 조건추가시 (결과없음)
default> select * from hive.t_test where stat_dt = '20150818' limit 5;
Progress: 100%, response time: 0.645 sec
stat_dt,  name,  cnt
-------------------------------
(0 rows, 0.645 sec, 0 B selected)




0.12버전을 새로 빌드해서 테스트해보면 이제 정상이다.

  • tajo 0.12 버전에서 단순조회시 결과 0건 (정상)
default> select * from hive.t_test limit 5;
stat_dt,  name,  cnt
-------------------------------
(0 rows, 0.047 sec, 49.4 GiB selected)


+ Recent posts