Arsip untuk Kategori ‘ clustering ’
tTREC Evaluation adalah standard yang biasanya digunakan dalam pengkuran dan evaluasi Information Retrieval. Versi trec evaluation terbaru dapat didownload disini. Untuk menjalankan trec_eval anda harus punya file assessment yang berisi informasi relevanci file terhadap suatu query dengan format : queryID 0 IDDocument Nilairelevancy contoh : q1 0 http://sws.geonames.org/4346347/ 2 Selain file assessment kita juga harus [ BACA LEBIH LANJUT ]
Saya jadi suka mendokumentasikan error2 yang terjadi di program saya berikut penyelesainnya. Semoga membantu semua dan saya sendiri di masa depan . Berikut adalah Error yang saya dapatkan ketika melakukan indexing dengan lucene plus melakukan searching dokumen no segments* file found in org.apache.lucene.store.FSDirectory Setelah saya melakukan pengecekan berulang kali, ternyata ada file write.lock di dalam [ BACA LEBIH LANJUT ]
Bermain dengan data yang cukup besar di dalam hadoop, terkadang menyebabkan error “java lang OutOfMemoryError: PermGen space“. Setelah googling, saya mendapatkan bahwa hal ini disebabkan setting dari JVM. Nah, bagaimana cara mengubah setting JVM di hadoop ? Terpaksa buka-buka setiap file konfigurasi dari hadoop. Saya temukan hadoop-env.sh yang berisi tentang setting untuk JVM beserta Java [ BACA LEBIH LANJUT ]
Membaca Field di dalam Lucene dimana field tiap dokumen bersifat statis.final NIOFSDirectory dir = new NIOFSDirectory(new File(this.Dir)); final IndexReader reader = IndexReader.open(dir, true); final Collection fieldNames = reader.getFieldNames(IndexReader.FieldOption.ALL); for (int i = 0; i < reader.numDocs(); i++) { System.out.println("processing document "+i); final Iterator fieldnameIT = fieldNames.iterator(); [ BACA LEBIH LANJUT ]
Riset di daerah clustering, ternyata tidak mudah. Berbagai hal harus dipahami, terutama masalah memori. Beberapa hari yang lalu saya menemukan masalah pada hadoop ketika saya harus menyimpan jutaan files berkuran antara beberapa kilo bytes hingga 1 megabytes ke dalam HDFS. By default, Hadoop mengalokasi 64MB untuk setiap file. File dan Blok terkait menjadi sebuah objek, [ BACA LEBIH LANJUT ]
Get every new post delivered to your Inbox.
Bergabunglah dengan 1.383 pengikut lainnya.