Skip to content

[pig] hug number of part files

Myungchul Shin edited this page Jun 8, 2015 · 1 revision
  • pig input으로 여러 디렉토리가 있고, 개별 디렉토리에 많은 수의 part file이 존재하는 경우 LOAD 명령이 실패할 수 있다.
  • 이런 경우 사용하는 방법
    • partition
    A = LOAD '$input' USING PigStorage('\t');
    STORE A INTO '$output' USING PigStorage('\t');
    
    • 개별 part file의 사이즈는 작은데 수가 많은 경우 유용하다.
    • block size단위로 다시 쓰기 때문에 part file의 수는 줄어든다.
Clone this wiki locally