my documentation

beberapa catatan kecil

Archive for Agustus 2009

Full Text search engine dengan Zend Search Lucene

with 3 comments

Zend Framework menyediakan sebuah fitur Zend_Search_Lucene yang berguna untuk pencarian Full Text pada dokumen. Fitur ini merupakan adopsi dari project Apache Lucene, merupakan project full-featured full text search engine yang dibangun dalam bahasa JAVA.

Secara garis besar, dalam membuat search engine untuk website, yang perlu dilakukan adalah :

  1. menginstall Zend Framework.
  2. melakukan pengindeksan terhadap dokumen-dokumen yang akan digunakan sebagai “kamus data” pencarian.
  3. melakukan pencarian dalam index yang telah terbentuk.

Menginstal Zend Framework

Untuk menginstall Zend Framework telah saya tulis di posting saya sebelumnya.

Melakukan Pengindeksan

Indeks disini adalah semacam kamus pencarian bagi search engine kita, yaitu tempat dimana dokumen-dokumen diekstrak informasi didalamnya (mis : url, title, isi dokumen itu sendiri, dll) kemudian diurutkan dan disimpan menjadi satu kesatuan yang terindeks.

Untuk melakukan pengindeksan website, kita harus membaca semua halaman yang ada di website tersebut, metodenya adalah kita membaca halaman HTML (frontpage), mengambil informasi (isi dan judul) dan membaca semua link yang ada didalamnya. Kemudian dari link yang terbaca, kita simpan dalam array dan dilakukan pembacaan halaman HTML berdasarkan link yang ada di dalam array. Proses crawling website ini kita batasi pada domain kita saja, jadi proses akan berjalan selama url yang akan dibaca masih dalam domain tertentu mis : wordpress.com maka kita akan melakukan proses crawilng pada wordpress.com beserta hosting-hosting didalamnya.

Baca entri selengkapnya »

Written by nugrahaputra

Agustus 3, 2009 at 6:58 am

Ditulis dalam Software

Ditandai dengan , ,