[hadoop] tidak cocok untuk file kecil


Riset di daerah clustering, ternyata tidak mudah. Berbagai hal harus dipahami, terutama masalah memori. Beberapa hari yang lalu saya menemukan masalah pada hadoop ketika saya harus menyimpan jutaan files berkuran antara beberapa kilo bytes hingga 1 megabytes ke dalam HDFS. By default, Hadoop mengalokasi 64MB untuk setiap file. File dan Blok terkait menjadi sebuah objek, dimana objek tersebut menggunakan namespace. Celakanya kapasitas namespace ini sangat terbatas. Bisa dibayangkan jika file2 terkecil tersebut menghabiskan namespace hampir 100% padahal hanya memakai 20% dari hardisk.
Untuk itulah Hadoop menyediakan solusi dengan menggunakan HAR (Hadoop Archive). HAR ini mirip dengan TAR dan JAR. Fungsinya adalah mengumpulkan file-file menjadi satu file berekstensi .har.
Cara membuat HAR cukup mudah :

hadoop archive -archiveName namafilehar direktorisumber tempatfilehar

contoh :

hadoop archive -archiveName kumpulan.har /home/iin/data/* /home/iin/

Cara mengakses HAR dari program hadoop/cascading

hadoop jar filejava.jar namaClass fileHARname.har output

Info lebih lanjut bisa dibaca di blog developer yahoo

  1. No trackbacks yet.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s