PageRank adalah sebuah algoritma yang telah dipatenkan yang berfungsi menentukan situs web mana yang lebih penting/populer. PageRank merupakan salah satu fitur utama mesin pencari Google dan diciptakan oleh pendirinya, Larry Page dan Sergey Brin yang merupakan mahasiswa Ph.D. Universitas Stanford.
Cara Kerja
Sebuah situs akan semakin populer jika semakin banyak situs lain yang
meletakkan tautan yang mengarah ke situsnya, dengan asumsi isi/content
situs tersebut lebih berguna dari isi/content situs lain. Peringkat
halaman dihitung dengan skala 1-10.
Contoh: Sebuah situs yang mempunyai peringkat halaman 9 akan
di urutkan lebih dahulu dalam daftar pencarian Google daripada situs
yang mempunyai peringkat halaman 8 dan kemudian seterusnya yang lebih
kecil.
Konsep
Banyak cara digunakan search engine dalam menentukan kualitas/rangking sebuah halaman web, mulai dari penggunaan META Tags, isi dokumen, penekanan pada content dan masih banyak teknik lain atau gabungan teknik yang mungkin digunakan. Link popularity, sebuah teknologi yang dikembangkan untuk memperbaiki kekurangan dari teknologi lain (Meta Keywords, Meta Description) yang bisa dicurangi dengan halaman yang khusus di desain untuk search engine atau biasa disebut doorway pages. Dengan algoritma ‘PageRank’ ini, dalam setiap halaman akan diperhitungkan inbound link (link masuk) dan outbound link (link keuar) dari setiap halaman web.
PageRank, memiliki konsep dasar yang sama dengan link popularity, tetapi tidak hanya memperhitungkan “jumlah” inbound dan outbound link.
Pendekatan yang digunakan adalah sebuah halaman akan diangap penting
jika halaman lain memiliki link ke halaman tersebut. Sebuah halaman juga
akan menjadi semakin penting jika halaman lain yang memiliki rangking
(pagerank) tinggi mengacu ke halaman tersebut.
Dengan pendekatan yang digunakan PageRank, proses terjadi
secara rekursif dimana sebuah rangking akan ditentukan oleh rangking
dari halaman web yang rangkingnya ditentukan oleh rangking halaman web
lain yang memiliki link ke halaman tersebut. Proses ini berarti suatu
proses yang berulang (rekursif). Di dunia maya, ada jutaan bahkan
milyaran halaman web. Oleh karena itu sebuah rangking halaman web
ditentukan dari struktur link dari keseluruhan halaman web yang ada di
dunia maya. Sebuah proses yang sangat besar dan komplek.
Alogaritma
Dari pendekatan yang sudah dijelaskan pada artikel konsep pagerank, Lawrence Page and Sergey Brin membuat algoritma pagerank seperti di bawah:
Algoritma awal
PR(A) = (1-d) + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(Tn) ) )
Salah satu algoritma lain yang dipublikasikan
PR(A) = (1-d) / N + d ( ( PR(T1) / C(T1) ) + … + ( PR(Tn) / C(Tn) ) )
PR(A)
adalah Pagerank halaman APR(T1)
adalah Pagerank halaman T1 yang mengacu ke halaman AC(T1)
adalah jumlah link keluar (outbound link) pada halaman T1d
adalah damping factor yang bisa diberi antara 0 dan 1.N
adalah jumlah keseluruhan halaman web (yang terindeks oleh Google)
Dari algoritma di atas dapat dilihat bahwa pagerank ditentukan untuk
setiap halaman anda bukan keseluruhan situs web. Pagerank sebuah halaman
ditentukan dari pagerank halaman yang mengacu kepadanya yang juga
menjalani proses penentuan pagerank dengan cara yang sama, jadi proses
ini akan berulang sampai ditemukan hasil yang tepat.
Akan tetapi pagerank halaman A tidak langsung diberikan kepada
halaman yang dituju, akan tetapi sebelumnya dibagi dengan jumlah link
yang ada pada halaman T1 (outbound link), dan pagerank itu akan dibagi
rata kepada setiap link yang ada pada halaman tersebut. Demikian juga
dengan setiap halaman lain “Tn” yang mengacu ke halaman “A”.
Setelah semua pagerank yang didapat dari halaman-halaman lain yang
mengacu ke halaman “A” dijumlahkan, nilai itu kemudian dikalikan dengan
damping factor yang bernilai antara 0 sampai 1. Hal ini dilakukan agar
tidak keseluruhan nilai pagerank halaman T didistribusikan ke halaman A.
Random Surver Model
Random surfer model merupakan pendekatan yang menggambarkan bagaimana
sesungguhnya yang dilakukan seorang pengunjung di depan sebuah halaman
web. Ini berarti peluang atau probabilitas seorang user mengklik sebuah
link sebanding dengan jumlah link yang ada pada halaman tersebut.
Pendekatan ini yang digunakan pagerank sehingga pagerank dari link masuk
(inbound link) tidak langsung didistribusikan ke halaman yang dituju,
melainkan dibagi dengan jumlah link keluar (outbound link) yang ada pada
halaman tersebut. Rasanya semua juga menganggap ini adil. Karena bisa
anda bayangkan apa jadinya jika sebuah halaman dengan rangking tinggi
mengacu ke banyak halaman, mungkin teknologi pagerank tidak akan relevan
digunakan.
Metode ini juga memiliki pendekatan bahwa seorang user tidak akan
mengklik semua link yang ada pada sebuah halaman web. Oleh karena itu
pagerank menggunakan damping factor untuk mereduksi nilai pagerank yang
didistribusikan sebuah halaman ke halaman lain. Probabilitas seorang
user terus mengkilk semua link yang ada pada sebuah halaman ditentukan
oleh nilai damping factor (d) yang bernilai antara 0 sampai 1. Nilai
damping factor yang tinggi berarti seorang user akan lebih banyak
mengklik sebuah halaman sampai dia berpindah ke halaman lain. Setelah
user berpindah halaman maka probabilitas diimplemntasikan ke dalam
algoritma pagerank sebagai konstanta (1-d) . Dengan mengeluarkan
variable inbound link (link masuk), maka kemungkinan seorang user untuk
berpindah ke halaman lain adalah (1-d), hal ini akan membuat pagerank
selalu berada pada nilai minimum.
Dalam algoritma pagerank yang lain, terdapat nilai N yang merupakan
jumlah keseluruhan halaman web, jadi seorang user memiliki probabilitas
mengunjungi sebuah halaman dibagi dengan total jumlah halaman yang ada.
Sebagai contoh, jika sebuah halaman memiliki pagerank 2 dan total
halaman web 100 maka dalam seratus kali kunjungan dia mengunjungi
halaman itu sebanyak 2 kali (catatan, ini adalah probabilitas).
No comments:
Post a Comment