Log Dosyası Analiziyle Googlebot Davranışı: Gerçek Tarama Haritasını Çıkarma
Log Dosyası Analizi Nedir ve Neden SEO'nun Gizli Silahıdır?
Google Search Console size indekslenmiş sayfaları gösterir, ancak Googlebot'un sitenizde gerçekte hangi yolları izlediğini, hangi sayfalarda ne kadar vakit harcadığını ve hangi dizinleri tamamen es geçtiğini öğrenmenizin tek yolu sunucu erişim loglarını (access logs) incelemektir. Log dosyası analizi (Server Log File Analysis), ham sunucu kayıtlarındaki bot istek satırlarını filtreleyerek tarama davranışını bir röntgen filmi gibi görüntülemenizi sağlar.
Hangi Veriler Çıkarılır?
Bir Apache veya Nginx sunucusunun access.log dosyasındaki her satır; istekte bulunan IP adresi, User-Agent bilgisi, istenen URL, HTTP durum kodu ve yanıt boyutu gibi bilgileri tutar. Googlebot istekleri User-Agent başlığında "Googlebot" ifadesini içerir. Bu satırları filtrelediğinizde elinize şu altın değerindeki metrikler geçer:
- Tarama Sıklığı (Crawl Frequency): Hangi sayfalar günde 50 kez taranırken hangilerine ayda bir uğranıyor? Sık taranan sayfalar Google'ın gözünde yüksek öncelikli demektir.
- Durum Kodu Dağılımı: Botun karşılaştığı 200, 301, 404, 500 kodlarının oranı. Yüksek 404 oranı tarama bütçesinin çöpe gittiğini kanıtlar.
- Yanıt Süresi (Response Time): Googlebot'a verilen ortalama yanıt süresi 200ms'nin üzerindeyse bot tarama kapasitesini kısacaktır.
- Taranmayan Sayfalar (Crawl Gaps): XML Sitemap'te olup logda hiç görünmeyen URL'ler "yetim sayfa" adaylarıdır.
Pratik Analiz Adımları
1. Logları Filtreleme ve Hazırlama
Büyük log dosyalarını komut satırında grep "Googlebot" access.log > googlebot.log komutuyla süzün. Elde edilen dosyayı tarih, URL ve durum koduna göre sıralayarak bir elektronik tabloya aktarın. Böylece hangi dizin dallarının yoğun tarandığını pivot tablo ile görselleştirebilirsiniz.
2. Tarama Bütçesi İsrafını Tespit Etme
Logda en çok istek alan URL gruplarını listeleyin. Eğer /sepete-ekle/, /search?q= veya /tag/ gibi SEO değeri sıfır olan yollar listenin tepesindeyse, bu dizinleri robots.txt ile acilen kapatın. Böylece bot bütçesini para kazandıran ürün ve içerik sayfalarınıza yönlendirirsiniz.
3. Sitemap ile Çapraz Kontrol
Sitemap'teki URL'leri log verisiyle eşleştirin. Sitemap'te olup 30 gün boyunca logda hiç görünmeyen sayfalar, Googlebot'un erişemediği veya önemsemediği içeriklerdir. Bu sayfalara iç link ağı kurarak veya sitemap öncelik (priority) değerlerini artırarak dikkati çekebilirsiniz.
Sonuç: Log analizi, tahmine değil gerçek veriye dayalı SEO kararları almanızı sağlar. Search Console verileri genellikle 48 saat gecikmeli gelirken, sunucu logları anlık Googlebot davranışını yansıtır. Bu yüzden büyük sitelerde log analizi, teknik SEO denetiminin vazgeçilmez ilk adımıdır.