Berikut adalah tugas softskill Pengantar Web science yang termasuk kedalam SAP
•
Pengukuran
Web (ukuran, unjuk kerja)
Salah satu teknik mengukur dan menguji suatu kinerja web
adalah dengan mengukur pengalaman seseorang atau user experience pengunjung
situs yang berinteraksi dengan halaman-halaman web yang berada di internet
(Keynote System, Inc 2010).
Kinerja suatu web atau web performance sangat dipengaruhi
oleh beberapa komponen-komponen dasar yang dibagi menjadi dua bagian penting,
yaitu (1) dilihat dari gambaran transaksi web atau perspective transaction dan
(2) gambaran komponen aplikasi atau application component perspective (Keynote
System, Inc 2010). Transaksi web atau web transaction lebih menitikberatkan
pada sisi pengalaman pengguna atau user experience sedangkan komponen aplikasi
lebih menitikberatkan pada komponen jaringan komputer atau computer network.
Pengalaman Pengguna (User experience), diantaranya adalah
(Keynote System, Inc 2010) :
- Time to opening page (time_to_opening_page), maksudnya
adalah mengukur, dari sisi pengguna, waktu yang dibutuhkan pada saat pertama
kali membuka halaman web. Waktu dimulai dari aksi pertama setelah internet
agent memutuskan untuk berpindah ke halaman berikutnya. Waktu berakhir ketika
pesan opening page ditampilkan di Web browser status bar.
- Page download (page_download_time), maksudnya adalah waktu yang
dibutuhkan antara ketika Web browser membuat sinyal opening page dan ketika Web
browser akan menampilkan pesan done di status bar.
Tools-tools pengukur analisis web :
- SEO (Search Engine Optimization) adalah mengoptimalkan
sebuah blog/web dengan memanfaatkan mesin pencari dan mendapatkan peringkat
yang tinggi di halaman pertama mesin pencari dengan menggunakan keyword agar
dibanjiri pengunjung yang datang dari search engine.
- GTmetrix merupakan sebuah situs dimana kita dapat mengetahui
berbagai hal yang membuat blog/web kita lambat dan performa blog/web ketika
akses, tersedia secara gratis dengan mengunakan yahoo Yslow dan Google page
speed sebagai mesin penganalisa dan menampilkan hasil juga rekomendasi yang
harus dilakukan.
Kelebihan dari
GTmetrix :
- Dapat
membandingkan beberapa URL secara bersamaan
- Dapat
menjadwalkan pengecekan web/blog secara otomatis dan dapat menyimpan
laporan
Kekurangan dari
GTmetrix:
- Dalam
penggunaan GTmetrix harus menggunakan koneksi internet yang cepat.
•
Crawlers
Crawler adalah sebuah program/script otomatis yang memproses
halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya
sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual
dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat
website dan dibuka pada browser, lalu browser melakukan request dan
men-download data dari web server melalui protokol HTTP.
Setiap Hyperlink yang ditemui pada konten yang tampil akan
dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang.
Nah sebuah web crawler mengotomatisasikan pekerjaan itu.
Kesimpulannya, dua fungsi utama web crawler adalah:
- Mengidentifikasikan Hyperlink.
- Hyperlink yang ditemui pada konten akan ditambahkan pada
daftar visit, disebut juga dengan istilah frontier.
- Melakukan proses kunjungan/visit secara rekursif.
- Dari setiap hyperlink, Web crawler akan menjelajahinya dan
melakukan proses berulang, dengan ketentuan
yang disesuaikan dengan keperluan aplikasi.
Cara kerja Crawler
Cara kerja Crawler , pertama robot mengumpulkan informasi
pada halaman blog/web dan semua media internet yg bisa diindeks oleh search
engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center.
Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila
memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg
dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut,
apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki
peringkat yg baik), di akan ditampilkan di halaman utama search engine
(berperingkat).
Cara agar website/blog masuk dalam Crawler :
Pertama : Membuat sitemap dan atau daftar isi
Sitemap (peta situs) blog berfungsi membantu search engine
bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda
berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan
memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama
dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi
kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh
manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi,
gunakan plugin bernama Dagon Sitemap Generator. Beberapa themes seperti GoBlog
Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.
Kedua : Mendaftarkan sitemap di Google Webmaster Tools
Sitemap blog anda perlu didaftarkan di Google Webmaster
Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar
anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji
sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google.
Daftarkan dulu blog anda di Google Webmaster Tools.
Berikut ini adalah contoh-contoh dari Crawler:
Teleport Pro
Salah satu software web crawler untuk keperluan offline
browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi
internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan
di http://www.tenmax.com.
HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro,
HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah
mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik
software ini free dan dapat di download pada website resminya di
http://www.httrack.com
Googlebot
Merupakan web crawler untuk membangun index pencarian yang
digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui
Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya,
sebagian bandwidth anda akan tersita karena proses crawling ini.
Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka
search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh
Inktomi Corporation yang diakuisisi oleh Yahoo!.
YaCy
Sedikit berbeda dengan web crawler lainnya di atas, YaCy dibangun atas prinsip
jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan
didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers).
Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak
memerlukan server central.
Contoh search engine yang menggunakan YaCy adalah Sciencenet
(http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.
•
Search
engines
Search engine adalah istilah atau penyebutan bagi website
yang berfungsi sebagai mesin pencari, mesin pencari ini akan menampilkan
informasi berdasarkan permintaan dari user pencari konten, konten yang
ditampilkan adalah konten yang memang sudah terindex dan tersimpan di database
server search engine-nya itu sendiri.
Saat ini sudah mulai banyak website search engine, namun
dari sekian banyak search engine yang ada saat ini berikut ini beberapa search
engine yang terbilang popular, seperti Yahoo!, Alltheweb, MSN, AskJeeves,
Google, AltaVista, dan Lycos.
Yahoo!
(http://www.yahoo.com)
Salah satu portal terbesar di Internet, selain MSN., dan
juga salah satu mesin pencaru tertua. Halaman utamanya sendiri tidak terlalu
ramah untuk pencarian, tetapi Yahoo! menyediakan search.yahoo.com untuk itu.
Yahoo! menggunakan jasa Google untuk mencari informasi di web, ditambah dengan
informasi dari databasenya sendiri. Kelebihan Yahoo! adalah direktorinya.
Yahoo! juga menyediakan pencarian yellow pages dan peta, yang masih terbatas
pada Amerika Serikat. Yahoo juga menyediakan pencarian gambar.
Alltheweb
(http://www.alltheweb.com)
Keunggulan Alltheweb adalah pencarian file pada FTP Server.
Tidak seperti web, FTP adalah teknologi internet yang ditujukan untuk menyimpan
dan mendistribusikan file, biasanya program, audio atau video. Web sebenarnya
lebih ditujukan untuk teks. Sejauh ini, hanya AllTheWeb yang menyediakan jasa
pencarian file.
MSN
(http://search.msn.com)
Mesin pencari dari Microsoft Network ini menawarkan
pencarian baik dengan kata kunci maupun dari direktori. Pemakai Internet
Explorer kemungkinan besar sudah pernah menggunakan mesin pencari ini. Situs
Searchenginewatch mencatat MSN sebagai mesin pencari ketiga populer setelah
Google dan Yahoo! Tak ada pencarian image, atau news. Menyediakan pencarian
peta, yellow pages, white pages, pencarian pekerjaan, rumah.
AskJeeves
(http://www.ask.com)
Situs mesin pencari yang satu ini mengunggulkan kemampuannya
untuk memahami bahasa manusia. Pengguna bisa menggunakan kalimat lengkap, bukan
kata kunci. Situs ini berguna untuk mengetahui jawaban dari pertanyaan(misal:
when did world war II end?).
Google
(http://www.google.com)
Selain pencarian web, Google juga menyediakan jasa pencarian
gambar, pencarian ?berita serta pencarian pada arsip USENET (newsgroup), serta
direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya
pencarian file, video, dan audio. Keunggulan Google terutama adalah pada
pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta
banyaknya jenis file yang diindeksnya.
AltaVista
(http://www.altavista.com)
Satu saat, AltaVista pernah menjadi mesin pencari terbesar.
Saat ini, selain Alltheweb, Altavista juga menawarkan pencarian audio dan
video. Keunggulan AltaVista adalah pilihan pencarian yang paling lengkap di
antara semua mesin pencari.
Lycos
(http://www.lycos.com)
Salah satu mesin pencari tertua. Saat ini Lycos lebih
dikenal sebagai portal, sehingga fungsi pencarinya tidak terlalu menonjol.
Lycos, selain mendukung pencarian web, juga menyediakan pencarian file MP3, dan
video pada http://multimedia.lycos.com.
Perbedaan Serach Engine Yang Ada
Ada banyak sekali contoh perbedaan search engine, disini
hanya akan ada beberapa yang saya jelaskan. Sebagai contoh, untuk Yahoo! dan
Bing, On Page Keyword merupakan faktor yang paling penting, sedangkan untuk
Google, Link-lah yang merupakan faktor yang sangat penting.
Selain itu, halaman website untuk Google adalah seperti wine
– semakin tua umurnya, semakin bagus peringkatnya. Sedangkan untuk Yahoo!
biasanya tidak mementingkan hal tersebut. Maka dari itulah, anda memerlukan
waktu yang lebih banyak untuk membuat website anda matang untuk berada di
peringkat atas di Google, daripada di Yahoo!.
Kerja Sebuah Search Engine
Jika anda ingin mencari sesuatu,tentunya telah memiliki
sebuah kata kunci ( keyword ) untuk sesuatu yang anda cari.Sebuah search engine
bekerja dengan menerima kata kunci dari pengguna,memproses dan menampilkan
hasilnya.Akan lebih mudah dibayangkan jika anda terbiasa melakukan pemrograman
data base dengan menggunakan Query atau SQL,karena tentunya anda telah terbiasa
menampilkan data pada table-table dengan kriteria tertentu.Tapi,Web Search
Engine yang tersedia saat ini telah memiliki kemampuan yang lebih baik dalam
menerima dan mengolah keyword dari pengguna.
Bagaimana search engine menampilkan informasi dari gudang
data yang sedemikian besar dalam waktu yang singkat..? Sebagaiman juga dengan
pemrograman database,menggunakan indeks adalah salah satu cara ampuh untuk
meningkatkanperforma kecepatan.Pencarian juga sudah tidak terbatas pada
pencarian dokumen,tetapi sangat variatif tergantung pada kebutuhan anda.Anda
dapat mencari gambar,musik,software, atau dokumen dengan fornat tertentu.
Hal lain yang tidak kalah penting bagaiman search engine (
terutama web search engine ) mengumpilkan semua data tersebut .Jangan kaget
jika anda cukup aktif menulis pada forum.blog,mailing list atau mungkin sebagai
spammer maka search engine dapat menampilkan ke seluruh dunia.Search engine
mampu menemukan tulisan anda karena adanya metode pengambilan informasi (
Informatio Retrival/IR) yang mencari metadata dan database yang tersebar di
internet.Sebagai contoh,pada saat anda mengetikkan sebuah komentar pahit pada
seseorang dan melakukan submit pada sebuah halaman website,halaman web yang berisi
komentar anda telah tersedia bagi aplikasi-aplikasi IR untuk dibaca siapa saja
yang melakukan pencarian dengan keyword yang tepat.
• Web archiving
Web Archiving adalah proses mengumpulkan bagian dari WWW dan
memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip,
untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang.
Besarnya ukuran Web membuat arsiparis web umumnya menggunakan web crawlers
untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang
menggunakan ancangan perangkak web ini adalah Internet Archive yang berupaya
memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional, dan
berbagai konsorsium organisasi lain juga terlibat dalam upaya pengarsipan
konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak dan layanan
komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web
mereka sendiri untuk berbagai keperluan.
Cara kerja web archiving:
A. Remote
Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan
menggunkana teknik web crawlers yang secara otomatis melakukan proses
pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses
halaman web sama semeprti user mengakses
halaman web menggunakan wob browser.
Contoh web crawler yang digunakan dalam web archiving seperti :
B. On-Demand
Ada banyak layanan yang dapat digunakan sebagai sumber
archive web "on-demand", menggunakan teknik web crawling.
Contohnya
seperti:
- Aleph Archives
- archive.is
- Archive-It
- Archivethe.net
- Compliance WatchDog by SiteQuest Technologies
- freezePAGE snapshots
- Hanzo Archives
- Iterasi
- Nextpoint
- Patrina
- PageFreezer
- Reed Archives
- Smarsh Web Archiving
- The Web Archiving Service
- webEchoFS
- WebCite
- Website-Archive.com
C. Database
archiving
Databasa Archiving mengacu pada metode untuk menarsipkan
konten database-driven websites. Hal ini
biasanya memerlukan ekstraksi konten database ke standard schema, sering
menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan
dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single
access system. Motode ini digunkanan seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh
Bibliothèque nationale de France dan
National Library of Australia.
D. Transactional
archiving
Transactional archiving merupakan event-driven yang
mengumpulkan transaksi yang berlangsung antara web server dan web
browser. Hal ini terutama digunakan
untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini
sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi
persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan
informasi.
Sistem yang digunakan pada transactional archiving biasanya
beroperasi dengan memeriksa setiap
permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk
menghilangkan konten yang duklikat dan secara permanen disimpan sebagai
bitstreams. Sebuah sistem transactional archiving membutuhkan instalasi
perangkat lunak pada web server, dan karena hal itu maka metode ini tidka dapat
mengumpulkan konten dari remote website.
sumber :