Rabu, 11 Juni 2014

Analisis Web

Berikut adalah tugas softskill Pengantar Web science yang termasuk kedalam SAP
•     Pengukuran Web (ukuran, unjuk kerja)
Salah satu teknik mengukur dan menguji suatu kinerja web adalah dengan mengukur pengalaman seseorang atau user experience pengunjung situs yang berinteraksi dengan halaman-halaman web yang berada di internet (Keynote System, Inc 2010).

Kinerja suatu web atau web performance sangat dipengaruhi oleh beberapa komponen-komponen dasar yang dibagi menjadi dua bagian penting, yaitu (1) dilihat dari gambaran transaksi web atau perspective transaction dan (2) gambaran komponen aplikasi atau application component perspective (Keynote System, Inc 2010). Transaksi web atau web transaction lebih menitikberatkan pada sisi pengalaman pengguna atau user experience sedangkan komponen aplikasi lebih menitikberatkan pada komponen jaringan komputer atau computer network.

Pengalaman Pengguna (User experience), diantaranya adalah (Keynote System, Inc 2010) :
  • Time to opening page (time_to_opening_page), maksudnya adalah mengukur, dari sisi pengguna, waktu yang dibutuhkan pada saat pertama kali membuka halaman web. Waktu dimulai dari aksi pertama setelah internet agent memutuskan untuk berpindah ke halaman berikutnya. Waktu berakhir ketika pesan opening page ditampilkan di Web browser status bar.
  • Page download (page_download_time), maksudnya adalah waktu yang dibutuhkan antara ketika Web browser membuat sinyal opening page dan ketika Web browser akan menampilkan pesan done di status bar.

Tools-tools pengukur analisis web :
  • SEO (Search Engine Optimization) adalah mengoptimalkan sebuah blog/web dengan memanfaatkan mesin pencari dan mendapatkan peringkat yang tinggi di halaman pertama mesin pencari dengan menggunakan keyword agar dibanjiri pengunjung yang datang dari search engine.
  • GTmetrix merupakan sebuah situs dimana kita dapat mengetahui berbagai hal yang membuat blog/web kita lambat dan performa blog/web ketika akses, tersedia secara gratis dengan mengunakan yahoo Yslow dan Google page speed sebagai mesin penganalisa dan menampilkan hasil juga rekomendasi yang harus dilakukan. 

     Kelebihan dari GTmetrix : 
  • Dapat membandingkan beberapa URL secara bersamaan
  • Dapat menjadwalkan pengecekan web/blog secara otomatis dan dapat menyimpan laporan  

     Kekurangan dari GTmetrix: 
  • Dalam penggunaan GTmetrix harus menggunakan koneksi internet yang cepat.
•     Crawlers
Crawler adalah sebuah program/script otomatis yang memproses halaman web. Sering juga disebut dengan web spider atau web robot. Ide dasarnya sederhana dan mirip dengan saat anda menjelajahi halaman website secara manual dengan menggunakan browser. Bermula pada point awal berupa sebuah link alamat website dan dibuka pada browser, lalu browser melakukan request dan men-download data dari web server melalui protokol HTTP.

Setiap Hyperlink yang ditemui pada konten yang tampil akan dibuka lagi pada windows/tab browser yang baru, demikian proses terus berulang. Nah sebuah web crawler mengotomatisasikan pekerjaan itu.

Kesimpulannya, dua fungsi utama web crawler adalah: 
  • Mengidentifikasikan Hyperlink.
  • Hyperlink yang ditemui pada konten akan ditambahkan pada daftar visit, disebut juga dengan istilah frontier.
  • Melakukan proses kunjungan/visit secara rekursif.
  • Dari setiap hyperlink, Web crawler akan menjelajahinya dan melakukan proses berulang, dengan ketentuan   yang disesuaikan dengan keperluan aplikasi.


Cara kerja Crawler

Cara kerja Crawler , pertama robot mengumpulkan informasi pada halaman blog/web dan semua media internet yg bisa diindeks oleh search engine. Robot tersebut kemudian membawa informasi yg didapatnya ke data center. Di data center, data tersebut kemudian di oleh sedemikian rupa, apabila memenuhi persyaratan, maka dia akan dimasukkan ke dalam indeks. Nah, proses yg dilakukan oleh user search engine adalah memanggil indeks-indeks tersebut, apabila indeks2 memiliki kesesuaian dengan yg dicari user (dan bila memiliki peringkat yg baik), di akan ditampilkan di halaman utama search engine (berperingkat).

Cara agar website/blog masuk dalam Crawler :

Pertama : Membuat sitemap dan atau daftar isi
Sitemap (peta situs) blog berfungsi membantu search engine bot menjelajahi, menemukan dan mengindeks konten blog kita. Jika blog anda berplatform wordpress.org, cara paling mudah membuat sitemap adalah dengan memasang plugin bernama Google XML sitemaps. Sitemap sebenarnya hampir sama dengan halaman daftar isi yang sering kita buat di blog, hanya sitemap berisi kode-kode HTML yang dibaca oleh bot sedangkan daftar isi untuk dibaca oleh manusia. Jika anda ingin sitemap yang juga berfungsi sebagai daftar isi, gunakan plugin bernama Dagon Sitemap Generator. Beberapa themes seperti GoBlog Themes sudah menyediakan sitemap secara default seperti ini: Sitemap.

Kedua : Mendaftarkan sitemap di Google Webmaster Tools
Sitemap blog anda perlu didaftarkan di Google Webmaster Tools. Google webmaster sendiri penting diikuti oleh semua pemilik blog agar anda dapat menganalisa semua data yang berkenaan dengan blog anda. Melalui uji sitemap, kita bisa mengetahui konten mana di blog yang belum terindeks Google. Daftarkan dulu blog anda di Google Webmaster Tools.

Berikut ini adalah contoh-contoh dari Crawler:

Teleport Pro
Salah satu software web crawler untuk keperluan offline browsing. Software ini sudah cukup lama popular, terutama pada saat koneksi internet tidak semudah dan secepat sekarang. Software ini berbayar dan beralamatkan di http://www.tenmax.com.

HTTrack
Ditulis dengan menggunakan C, seperti juga Teleport Pro, HTTrack merupakan software yang dapat mendownload konten website menjadi sebuah mirror pada harddisk anda, agar dapat dilihat secara offline. Yang menarik software ini free dan dapat di download pada website resminya di http://www.httrack.com

Googlebot
Merupakan web crawler untuk membangun index pencarian yang digunakan oleh search engine Google. Kalau website anda ditemukan orang melalui Google, bisa jadi itu merupakan jasa dari Googlebot. Walau konsekuensinya, sebagian bandwidth anda akan tersita karena proses crawling ini.

Yahoo!Slurp
Kalau Googlebot adalah web crawler andalan Google, maka search engine Yahoo mengandalkan Yahoo!Slurp. Teknologinya dikembangkan oleh Inktomi Corporation yang diakuisisi oleh Yahoo!.

YaCy
Sedikit berbeda dengan web crawler  lainnya di atas, YaCy dibangun atas prinsip jaringan P2P (peer-to-peer), di develop dengan menggunakan java, dan didistribusikan pada beberapa ratus mesin computer (disebut YaCy peers). Tiap-tiap peer di share dengan prinsip P2P untuk berbagi index, sehingga tidak memerlukan server central.

Contoh search engine yang menggunakan YaCy adalah Sciencenet (http://sciencenet.fzk.de) untuk pencarian dokumen di bidang sains.

•     Search engines
Search engine adalah istilah atau penyebutan bagi website yang berfungsi sebagai mesin pencari, mesin pencari ini akan menampilkan informasi berdasarkan permintaan dari user pencari konten, konten yang ditampilkan adalah konten yang memang sudah terindex dan tersimpan di database server search engine-nya itu sendiri.

Saat ini sudah mulai banyak website search engine, namun dari sekian banyak search engine yang ada saat ini berikut ini beberapa search engine yang terbilang popular, seperti Yahoo!, Alltheweb, MSN, AskJeeves, Google, AltaVista, dan Lycos.

Yahoo!

(http://www.yahoo.com)

Salah satu portal terbesar di Internet, selain MSN., dan juga salah satu mesin pencaru tertua. Halaman utamanya sendiri tidak terlalu ramah untuk pencarian, tetapi Yahoo! menyediakan search.yahoo.com untuk itu. Yahoo! menggunakan jasa Google untuk mencari informasi di web, ditambah dengan informasi dari databasenya sendiri. Kelebihan Yahoo! adalah direktorinya. Yahoo! juga menyediakan pencarian yellow pages dan peta, yang masih terbatas pada Amerika Serikat. Yahoo juga menyediakan pencarian gambar.

Alltheweb

(http://www.alltheweb.com)

Keunggulan Alltheweb adalah pencarian file pada FTP Server. Tidak seperti web, FTP adalah teknologi internet yang ditujukan untuk menyimpan dan mendistribusikan file, biasanya program, audio atau video. Web sebenarnya lebih ditujukan untuk teks. Sejauh ini, hanya AllTheWeb yang menyediakan jasa pencarian file.

MSN

(http://search.msn.com)

Mesin pencari dari Microsoft Network ini menawarkan pencarian baik dengan kata kunci maupun dari direktori. Pemakai Internet Explorer kemungkinan besar sudah pernah menggunakan mesin pencari ini. Situs Searchenginewatch mencatat MSN sebagai mesin pencari ketiga populer setelah Google dan Yahoo! Tak ada pencarian image, atau news. Menyediakan pencarian peta, yellow pages, white pages, pencarian pekerjaan, rumah.

AskJeeves

(http://www.ask.com)

Situs mesin pencari yang satu ini mengunggulkan kemampuannya untuk memahami bahasa manusia. Pengguna bisa menggunakan kalimat lengkap, bukan kata kunci. Situs ini berguna untuk mengetahui jawaban dari pertanyaan(misal: when did world war II end?).

Google

(http://www.google.com)

Selain pencarian web, Google juga menyediakan jasa pencarian gambar, pencarian ?berita serta pencarian pada arsip USENET (newsgroup), serta direktori, seperti Yahoo! Kelemahannya terletak pada tidak tersedianya pencarian file, video, dan audio. Keunggulan Google terutama adalah pada pencarian teks, terutama dari algoritma PageRank, database-nya yang besar serta banyaknya jenis file yang diindeksnya.

AltaVista

(http://www.altavista.com)

Satu saat, AltaVista pernah menjadi mesin pencari terbesar. Saat ini, selain Alltheweb, Altavista juga menawarkan pencarian audio dan video. Keunggulan AltaVista adalah pilihan pencarian yang paling lengkap di antara semua mesin pencari.

Lycos

(http://www.lycos.com)

Salah satu mesin pencari tertua. Saat ini Lycos lebih dikenal sebagai portal, sehingga fungsi pencarinya tidak terlalu menonjol. Lycos, selain mendukung pencarian web, juga menyediakan pencarian file MP3, dan video pada http://multimedia.lycos.com.

Perbedaan Serach Engine Yang Ada

Ada banyak sekali contoh perbedaan search engine, disini hanya akan ada beberapa yang saya jelaskan. Sebagai contoh, untuk Yahoo! dan Bing, On Page Keyword merupakan faktor yang paling penting, sedangkan untuk Google, Link-lah yang merupakan faktor yang sangat penting.

Selain itu, halaman website untuk Google adalah seperti wine – semakin tua umurnya, semakin bagus peringkatnya. Sedangkan untuk Yahoo! biasanya tidak mementingkan hal tersebut. Maka dari itulah, anda memerlukan waktu yang lebih banyak untuk membuat website anda matang untuk berada di peringkat atas di Google, daripada di Yahoo!.

Kerja Sebuah Search Engine

Jika anda ingin mencari sesuatu,tentunya telah memiliki sebuah kata kunci ( keyword ) untuk sesuatu yang anda cari.Sebuah search engine bekerja dengan menerima kata kunci dari pengguna,memproses dan menampilkan hasilnya.Akan lebih mudah dibayangkan jika anda terbiasa melakukan pemrograman data base dengan menggunakan Query atau SQL,karena tentunya anda telah terbiasa menampilkan data pada table-table dengan kriteria tertentu.Tapi,Web Search Engine yang tersedia saat ini telah memiliki kemampuan yang lebih baik dalam menerima dan mengolah keyword dari pengguna.

Bagaimana search engine menampilkan informasi dari gudang data yang sedemikian besar dalam waktu yang singkat..? Sebagaiman juga dengan pemrograman database,menggunakan indeks adalah salah satu cara ampuh untuk meningkatkanperforma kecepatan.Pencarian juga sudah tidak terbatas pada pencarian dokumen,tetapi sangat variatif tergantung pada kebutuhan anda.Anda dapat mencari gambar,musik,software, atau dokumen dengan fornat tertentu.

Hal lain yang tidak kalah penting bagaiman search engine ( terutama web search engine ) mengumpilkan semua data tersebut .Jangan kaget jika anda cukup aktif menulis pada forum.blog,mailing list atau mungkin sebagai spammer maka search engine dapat menampilkan ke seluruh dunia.Search engine mampu menemukan tulisan anda karena adanya metode pengambilan informasi ( Informatio Retrival/IR) yang mencari metadata dan database yang tersebar di internet.Sebagai contoh,pada saat anda mengetikkan sebuah komentar pahit pada seseorang dan melakukan submit pada sebuah halaman website,halaman web yang berisi komentar anda telah tersedia bagi aplikasi-aplikasi IR untuk dibaca siapa saja yang melakukan pencarian dengan keyword yang tepat.

•    Web archiving

Web Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses peneliti, sejarawan, dan masyarakat umum pada masa datang. Besarnya ukuran Web membuat arsiparis web umumnya menggunakan web crawlers untuk pengumpulan secara otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh Web. Perpustakaan nasional, arsip nasional, dan berbagai konsorsium organisasi lain juga terlibat dalam upaya pengarsipan konten Web yang memiliki nilai penting bagi mereka. Perangkat lunak dan layanan komersial juga tersedia bagi organisasi yang ingin mengarsipkan konten web mereka sendiri untuk berbagai keperluan.

Cara kerja web archiving:

A.     Remote Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan menggunkana teknik web crawlers yang secara otomatis melakukan proses pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses halaman web  sama semeprti user mengakses halaman web menggunakan wob browser.  

Contoh web crawler yang digunakan dalam web archiving seperti :
  • Heritrix
  • HTTrack
  • Wget

B.     On-Demand
Ada banyak layanan yang dapat digunakan sebagai sumber archive web "on-demand", menggunakan teknik web crawling. 
Contohnya seperti:
  • Aleph Archives
  • archive.is
  • Archive-It
  • Archivethe.net
  • Compliance WatchDog by SiteQuest Technologies
  • freezePAGE snapshots
  • Hanzo Archives
  • Iterasi
  • Nextpoint
  • Patrina
  • PageFreezer
  • Reed Archives
  • Smarsh Web Archiving
  • The Web Archiving Service
  • webEchoFS
  • WebCite
  • Website-Archive.com

C.     Database archiving
Databasa Archiving mengacu pada metode untuk menarsipkan konten database-driven websites.  Hal ini biasanya memerlukan ekstraksi konten database ke standard schema, sering menggunakan XML. Setelah disimpan dalam format standar, konten yang diarsipkan dari beberapa databse dapat tersedia untuk diakses dengan menggunakan single access system. Motode ini digunkanan seprti pada DeepArc dan  Xinq masiing masing dikembangkan oleh Bibliothèque nationale de France dan  National Library of Australia.

D.     Transactional archiving
Transactional archiving merupakan event-driven yang mengumpulkan  transaksi  yang berlangsung antara web server dan web browser.  Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk mengungkapkan dan mempertahankan informasi.
Sistem yang digunakan pada transactional archiving biasanya beroperasi dengan memeriksa  setiap permintaan HTTP dan respon dari web server, menyaring setiap aktifitas untuk menghilangkan konten yang duklikat dan secara permanen disimpan sebagai bitstreams. Sebuah sistem transactional archiving membutuhkan instalasi perangkat lunak pada web server, dan karena hal itu maka metode ini tidka dapat mengumpulkan konten dari remote website.

sumber :

1 komentar:

Anonim mengatakan...

Roulette | Casino Site | LuckyClub
Play at Roulette, a popular casino site. Play slots and table games for real money on luckyclub.live Roulette. Rating: 2.8 · ‎7 votes