[hadoop] tidak cocok untuk file kecil
Riset di daerah clustering, ternyata tidak mudah. Berbagai hal harus dipahami, terutama masalah memori. Beberapa hari yang lalu saya menemukan masalah pada hadoop ketika saya harus menyimpan jutaan files berkuran antara beberapa kilo bytes hingga 1 megabytes ke dalam HDFS. By default, Hadoop mengalokasi 64MB untuk setiap file. File dan Blok terkait menjadi sebuah objek, dimana objek tersebut menggunakan namespace. Celakanya kapasitas namespace ini sangat terbatas. Bisa dibayangkan jika file2 terkecil tersebut menghabiskan namespace hampir 100% padahal hanya memakai 20% dari hardisk.
Untuk itulah Hadoop menyediakan solusi dengan menggunakan HAR (Hadoop Archive). HAR ini mirip dengan TAR dan JAR. Fungsinya adalah mengumpulkan file-file menjadi satu file berekstensi .har.
Cara membuat HAR cukup mudah :
hadoop archive -archiveName namafilehar direktorisumber tempatfilehar
contoh :
hadoop archive -archiveName kumpulan.har /home/iin/data/* /home/iin/
Cara mengakses HAR dari program hadoop/cascading
hadoop jar filejava.jar namaClass fileHARname.har output
Info lebih lanjut bisa dibaca di blog developer yahoo


Berbagai impian untuk mewujudkan keinginan riset terbenam di otak. Apalagi ketemu teman-teman yang sudah evangelist di bidangnya. Kadang saya merasa minder, ora iso opo-opo jee. Hampir semua sudah punya produk (kebanyakan OSS) yang telah dibagi ke masyarakat dunia. Pertama masuk sudah ada tulisan daftar orang-orang IT di bawah 30 tahun yang telah mengubah dunia. Usiaku sekarang udah 28 tahun, belum membuat sesuatu yang bisa mengubah Indonesia, Islam apalagi dunia.