SEO-TÜRK.com - Türkiye'nin Bir Numara Internet Marketing & Arama Motoru Forumu
SEO-TÜRK.com - Türkiye'nin Bir Numara Internet Marketing & Arama Motoru Forumu
SEO-TÜRK.com
 

Arama Motoru Ajanlari (Search Engine Spiders)

Cevapla
 
LinkBack Seçenekler Stil

Alt 26. September 2007, 23:27
Taipan
SEO Consultant
 
Taipan - ait Kullanıcı Resmi (Avatar)
 
Üyelik tarihi: 13. July 2007
Nerden: Almanya
Mesajlar: 70
Tecrübe Puanı: 10 Taipan is infamous around these parts
Taipan - MSN üzeri Mesaj gönder
Arama Motoru Ajanlari (Search Engine Spiders)

Spiders Özet:
Internet günden güne büyüyor, milyonlarca dosya ve resim barındırıyor. Bununla birlikte insanlar bilgilere ulaşabilmek için çevrimiçi servislere bel bağlıyorlar. Tabi ki bu bilgilere en sağlıklı ulaşabilecekleri servisleri tercih ediyorlar. Bu nedenle “Arama Motorları” büyük önem kazanıyor. Arama motorları dediğimizde ilk akla gelen internet tarayıcımızda gördüğümüz sayfa olsa da, aslında işin arka tarafında birçok servis çalışmakta. Bu servisler kullanıcıların ulaşacağı verilerin sağlıklı, taze ve mantıklı olmasını sağlıyor. Arama Motoru Ajanları (Search Engine Agents) da bu servislerin bel kemiğini oluşturuyor. Temel olarak aranacak olan bilgileri tarayıp, düzgün ve belirli bir mantık çerçevesinde kaydediyorlar. Bu yazıda Arama Motoru Ajanlarının çıkış nedenleri ve mimarisi hakkında bilgiler bulunmaktadır.

Giriş
Bizim arama motorlarında arama yapmamızdan önce o dosya ve belgelerin bir şekilde bulunup kaydedilmesi gerekiyor. Bunlar için Ajanlar veya örümcekler isminde özel yazılımlar geliştiriliyor. Bu yazılımlar internet adreslerini ve içeriklerini kaydediyorlar. Bu kayıtların yapıldığı sayfalardaki linkleri takip ederek sayfadan sayfaya geçiyorlar. Böylelikle milyonlarca siteye ulaşabiliyorlar. Bu programlar otomatik olarak her bulduğu linkleri gezmektedirler.

Bu ajanların bulduğu web adreslerinin içeriğini kaydeden başka ajanlarda mevcut. Bu ajanlarda kaydettikleri verileri belirli mantıkta sıkıştırıp saklamaktadır.

Bu ajanların dışında siteler için öncelik sırası belirlemek amacıyla çeşitli ajanlar çalışmaktadır. Bunlar o siteye ne kadar link verildiği, bu linklerin karşılığının olup olmadığını karşılaştırarak o site için bir önem puanı vermektedir. Bu sayede önemli görülen siteler aramalarda üst sıralarda yer alabilmektedir.

Ajanlar Nasıl Çalışır?
Ajanlar arama motorlarının birer parçası olarak arkaplanda çalışmaktadır. Performans ve güvenilirlik en önemli noktalar. Ajanların çalışma performansı internet bağlantısının hızına ve bağlandığı sitenin hızına göre değişmektedir. Temel olarak ajanlar aşağıdaki adımları takip etmektedir:

Sayfayı tamamen kaydet.
Kaydedilen sayfadayı parçalara ayırarak içerisindeki tüm linkleri al.
Alınan tüm linkler için işlemi tekrar et.
Ajan herhangi bir Internet veya Intranet adresinden başlayarak sayfaları kaydeder. Her kaydettiği sayfada yeni adresler ile karşılaştığı için sürekli olarak kayıt işlemine devam edecektir.

Problemler
Internetin büyüme hızı ve web sayfalarının sayının artması altında örümceklerimiz ezildi.Büyük çapta hizmet gösteren ajanlar yüksek sayıda web adresi (URL) olması sebebiyle çeşitli problemlerle karşılaşmaya başladılar. Hazır olan tüm sitelerini gezip, taramak ve bunları hafızaya almak çok zor olmaya başladı. Diğer bir yandan bu toplanan verileri diskte yazmakta performans açısından çokda verimli olmamaya başladı. Milyarlarca web sitesini kaydedebilmek için terabytelarca iyi yönetilen disk alanı gerekiyor.

Evre Takası
Sağladıkları avantajlar ile birlikte ajanlarımızın yol açtığı sorunlarda meydana gelmeye başladı. Aynı anda birçok sayfası kaydedilen bir sunucuda fazladan bir yük binmeye ve yavaşlamalara yol açmaya başladı. Bu nedenle daha kibar ajanların hazırlanması gerekti, aynı anda sunucudan fazla veri çekmemeleri için.

Ajanların aynı sunucu üzerinden aynı anda veri çekmesini düzenlemek amacıyla “Evre Takası (Phase Swapping)” metodunu kullanıyoruz. Takas etmek problemin tek çözümü olmasa da başarılı çözümlerden bir tanesi.

Aşağıdaki şekildeki gibi aynı sunuculardaki verileri parçalara ayırıyoruz. Daha sonra aynı satırda olan adreslerden sadece bir tanesine gidip, diğer satıra gidiyoruz. Zamanımız arttığı için sütun sayımızı da artıyoruz. Bunun neticesinde aşağıda ki şekilde görülen çapraz şekilde giden bir yapı oluşuyor. Bu yapıyla birlikte aynı anda aynı sunucu üzerinden veri çekmemiş oluyoruz.

Evre Takası
Site Adresi Sıkıştırma (URL Compression)

Ajanlarımız tüm adresleri kaydetmek durumundalar. Bunun için bu adresleri saklarken bir sıkıştırma algoritması kullanmamız gerekiyor, bu algoritma hem hızlı saklanabilmeli, aranabilmeli aynı zaman hızlı geri dönüşüm sağlayabilmeli.

Kullanacağımız algoritma sunucuların birbirleriyle bağlanma ilkelerine benziyor. Algoritmamız da site adresleri kök (root) ve kuyruk (tail) olmak üzere ikiye ayrılıyor. Bir kök dizinin altında ağaç yapısı şeklinde kuyruklar sıralanıyorlar, bu kuyruklar sıralanırken çeşitli köklere bağlanabiliyorlar. Aynı site için birden fazla adres olabileceği içinde yansılar ayrıca belirtiliyor, böylece farklı adreste yayın yapan iki farklı site 2 kez kaydedilmemişte oluyor.

Arama Motorları ;Bilgi Tekrarları

Anahtar Kelimeler
Örümcek (Spider), İndeksleyici (Indexer), Depolama (Repository), Döküman İndeksleyici (Document indexer), Robot

Kaynaklar
* Linkleri Görebilmek İçin Üye Olmalısınız !
* Linkleri Görebilmek İçin Üye Olmalısınız !
* Linkleri Görebilmek İçin Üye Olmalısınız ! *.PDF
* Linkleri Görebilmek İçin Üye Olmalısınız !
Taipan isimli Üye şimdilik offline konumundadır  
Digg this Post!Add Post to del.icio.usBookmark Post in TechnoratiFurl this Post!
Alıntı ile Cevapla
Cevapla
Tags: , , , ,




Seçenekler
Stil

Yetkileriniz
Yeni Mesaj yazma yetkiniz aktif değil dir.
Mesajlara Cevap verme yetkiniz aktif değil dir.
Eklenti ekleme yetkiniz aktif değil dir.
Kendi Mesajınızı değiştirme yetkiniz aktif değil dir.

Smileler Açık
[IMG] Kodları Açık
HTML-KodlarıKapalı
Trackbacks are Açık
Pingbacks are Açık
Refbacks are Açık

Benzer Konular
Konu Konuyu Başlatan Forum Cevaplar Son Mesaj
Search Engine (Arama Motoru) Optimization FAQ! Taipan Internet Marketing Genel Sorularınız 0 24. July 2007 14:56


Şu Anki Saat: 23:44
Imprint İletişim
[ RSS Feeds | Home | Yukarı git ]
© 2007 A2D Internetagentur ®, All Rights Reserved
Copyright ©2000 - 2007, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.0.0
Privacy Forum Sitemap

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87