Cara Menggunakan NUTCH 1.0 di Ubuntu

mungkin pertanyan yang paling mendasar ialah…
APA sih NUTCH itu????
“Nutch is open source web-search software”
nah begitulah nutch…😀
nutch itu salah satu software untuk mesin pencari web. Dan merupakan aplikasi yang open source.
klo masih bingung juga…coba aja liat mbah Google,,.. nah kira2 begitulah nutch.
dengan nutch kita bisa bikin semacam mbah google gitu kira-kira. (walaupun berbeda sih).
Intinya nutch dapat kita pakai untuk mencari halaman2 web di internet untuk kita masukkan dalam suatu databases.
Tentunya dengan parameter dan sesuai dengan settingan yang kita pakai juga.
itu semua tergantung pada kebutuhan si user sendiri.

Oke dah,, disini kita mo ngebahas bagaimana cara menggunakan nutch!…
walaupun sudah banyak tutorialnya… dan beragampula…..
namun apa salahnya klo gw buat lagi,, tentunya dengan versi bahasa Indonesia🙂
Namun tutorial yang saya tulis disini, saya mencoba dengan sistem operasi Ubuntu 9.04

Nah yang perlu lo punya atau siapin, diantaranya di komputer lo harus tersedia ini semua.
kalo ga ada??? ya cari lah… donlod juga banyak….

Aplikasi yang disiapkan :
1. JDK  –> yg gw pk : jdk1.6.0
2. Tomcat  –> yg gw pk : apache-tomcat-6.0.24
3. Nutch  –> yg gw pk : nutch-1.0
4. dan tentunya harus ada OS nya :p  –> yg gw pk : Ubuntu 9.04

Langkah pertama ialah menginstall JDK dan tomcat di komputer qta
Lakukan konfigurasi PATH nya, misalnya klo di gw (disesuaikan dengan tempat qta menaruh file) :

PATH=”/usr/local/sbin:/opt/jdk1.6.0/bin:/opt/apache-tomcat-6.0.24/bin:”
JAVA_HOME=”/opt/jdk1.6.0/”
CATALINA_HOME=”/opt/apache-tomcat-6.0.24/”
NUTCH_JAVA_HOME=”/opt/jdk1.6.0″

Nah sampai pada tahapan di atas ini, settingan dan persiapan dah beres.
Selanjutnya ialah mulai bermain-main dengan NUTCH!!!!🙂
READY!!!!!

1. Masuk ke direktori nutch
2. Memmbuat direktori baru, beri nama urls. Buat sebuah text file di folder urls
misal : seed.txt
isi file : http://lucene.apache.org/nutch/ —–> bisa disesuaikan dengan alamat apa yg qta tuju.

3. Masuk ke direkdori nutch/conf/ , cari crawl-urlfilter.txt , kemudian edit isinya dengan mengganti MY.DOMAIN.NAME
dengan :  +^http://([a-z0-9]*\.)*apache.org/
ini berarti ini akan memasukkan apapun nama domain yng berakhiran apache.org (bisa disesuaikan dengan kebutuhan)

4. Masuk ke direkdori nutch/conf/ , cari nutch-site.xml , kemudian edit isinya/ ganti seluruhnya dengan ini :

<?xml version=”1.0″?>
<?xml-stylesheet type=”text/xsl” href=”configuration.xsl”?>
<!– Put site-specific property overrides in this file. –>
<configuration>
<property>
<name>http.agent.name</name>
<value>MySpider</value>
</property>
</configuration>

Keterangan : Value tidak boleh kosong, di contoh ini di isi dengan Myspider, sebenarnya masih banyak lagi parameter yang harus di setting, namun untuk tahapan pembelajaran cukup http.agent.name saja yg kita seting. Bila ingin lebih detail, dapat mencari tutorial pada web aselinya si nutch!

5. Langkah-langkah di atas ialah untuk konfigurasi nutch nya sendiri, selanjutnya ialah dengan menjalankan si nutch!

6. Ada berbagai macam cara untuk melakukan crawling, namun disini gw cuma menulis salah satu cara, yang gw anggap paling mudah dimengerti untuk digunakan. Semua ini sekali lagi tergantung kebutuhan si user.

–> keterangan : disini contoh kasusnya ialah kita ingin mengambil/fetch website yang telah kita daftarkan/buat list di nutch/urls/seed.txt

Langkah2nya ialah (pengerjaan ini dilakukan dalam direktori nutch) :

7. Inject seed urls ke nutch crawldb (execute in nutch directory), caranya :
bin/nutch inject crawl/crawldb urls

8. Generate fetch list, fetch and parse content, caranya :
bin/nutch generate crawl/crawldb crawl/segments

9. Command di atas akan membuat sebuah direktori di crawl/segments, untuk menyimpan urlyg nanti di fetch. kita akan menyimpan nama segment ini dalam sebuah variabel (misalnya : s1), contohnya :
s1=`ls -d crawl/segments/2* | tail -1`

10. cek variabel yg telah di buat :
echo $s1

11. Sekarang kita run fetcher pada segmen ini :
bin/nutch fetch $s1

—> keterangan, proses/tahapan ini bila berhasil, mungkin akan memakan waktu cukup lama, tergantuh kepada berapa banyak yang kita fetch,, karna tahapan ini sama saja dengan mendonlod.

12. Bila proses di atas selesai, update databases dengan data yg baru saja kita fetch :
bin/nutch updatedb crawl/crawldb $s1

13. Nah, sampai tahapan ini, sebenarnya proses NUTCH telah selesai, untuk mendapatkan data yang lain,, settingan dapat kita rubah2 sesuai kebutuhan, dan bila settingan selesai, dapat kembali melakukan langkah2 seperti pada no 7 s/d 12.

14. selanjutnya ialah membuat index dari kumpulan data yang kita peroleh, caranya :
bin/nutch invertlinks crawl/linkdb crawl/segments/*
kemudian :
bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

15. Sekarang kita dapat melakukan Pencarian seperti layaknya mbah google :p !!!!
Untuk tahapan ini,, pake bahasa inggris dari aselinya aj ya!!!
klo di indonesia in jadi aneh…ntarnya malah ngaco!!!😀

SEARCHING!!!!!

Simplest way to verify the integrity of your crawl is to launch NutchBean from command line:

bin/nutch org.apache.nutch.searcher.NutchBean apache

After you have verified that the above command returns results you can proceed to setting up the web interface.

Assuming you’ve unpacked Tomcat as ~/opt/tomcat, then the Nutch war file may be installed with the commands:

rm -rf ~/opt/tomcat/webapps/ROOT*
cp nutch*.war ~/opt/tomcat/webapps/ROOT.war

The webapp finds its indexes in ./crawl, relative to where you start Tomcat, so use a command like:

~/opt/tomcat/bin/catalina.sh start

Then visit http://localhost:8080/ and have fun!

More detailed tutorials are available on the Nutch Wiki.

NAAAH!!! selamat mencoba….
mungkin masih banyak yg kurang…
tapi mudah2an sie bisa jalan!!!!🙂
………………..

Tampilan Searching Nutch

    • kikuk
    • April 18th, 2010

    Kurang lengkap bos

      • mahardi
      • April 20th, 2010

      Oh.., masa? yg ga bisa dimnanya?
      btw klo di copas ada yg beda formatnya.

  1. No trackbacks yet.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: