robots.txt ve Noindex Rehberi: Crawl Bütçesini Doğru Yönetmek
robots.txt ve Noindex Neden Karıştırılır?
İkisi de sayfaları arama motorlarından "gizlemek" için kullanıldığı düşünülen direktiflerdir. Ancak çalışma mantıkları tamamen farklıdır ve yanlış yerde kullanıldığında ciddi SEO sorunlarına yol açar. Bu iki mekanizmayı doğru anlamak, crawl bütçesini verimli kullanmanın ve indekslenme sorunlarının önlenmesinin temelidir.
- robots.txt: Googlebot'un sayfayı ziyaret etmesini engeller — ama indekslemeyi garanti etmez
- noindex: Sayfanın ziyaret edilmesine izin verir ama arama indeksine alınmasını engeller
robots.txt Nasıl Çalışır?
robots.txt, site kökünde (seoaraci.com/robots.txt) bulunan ve botlara hangi URL'leri taramaması gerektiğini söyleyen düz metin dosyasıdır. Googlebot sayfayı crawl etmeden önce bu dosyayı kontrol eder.
Temel Sözdizimi
User-agent: *→ Tüm botlara uygulanırUser-agent: Googlebot→ Yalnızca Google'ın tarayıcısına uygulanırDisallow: /admin/→ /admin/ altındaki tüm URL'leri engellerAllow: /admin/public→ Engelleme içinde istisna tanımlarSitemap: https://seoaraci.com/sitemap.xml→ Sitemap URL'sini bildirir
Kritik Uyarı: robots.txt İndekslemeyi Engellemez
En sık yapılan yanlış budur. Disallow ile engellenen bir sayfayı Google crawl edemez; dolayısıyla o sayfada noindex etiketi görse bile okuyamaz. Ama bu sayfanın indekslenmeyeceği anlamına gelmez: Eğer başka bir siteden o sayfaya link varsa Google, sayfayı URL olarak indeksleyebilir — içeriği görmeden. Bu durumda arama sonuçlarında "Bu sayfa hakkında açıklama yok" şeklinde bir URL görünür.
Sonuç: Bir sayfanın indekslenmesini kesin olarak engellemek istiyorsanız, o sayfanın taranabilir olması ve <meta name="robots" content="noindex"> içermesi gerekir.
noindex Direktifi Nasıl Çalışır?
noindex, Google'a "bu sayfayı tara ama arama sonuçlarında gösterme" der. İki yöntemle uygulanabilir:
1. HTML Meta Etiketi
Sayfa <head> bölümüne eklenir:
<meta name="robots" content="noindex">→ Sayfa indekslenmiyor, linkler takip ediliyor<meta name="robots" content="noindex, nofollow">→ Sayfa indekslenmiyor, linkler de takip edilmiyor<meta name="robots" content="noindex, follow">→ Sayfa indekslenmiyor ama linkleri takip ediliyor (link equity aktarımı devam eder)
2. X-Robots-Tag HTTP Header
HTML içeriği olmayan dosyalar (PDF, görsel) için kullanılır. Sunucu yanıtında HTTP başlığı olarak gönderilir. HTTP Header Checker aracımızla mevcut header'larınızı inceleyebilirsiniz.
Crawl Bütçesi Nedir ve Nasıl Yönetilir?
Crawl bütçesi, Googlebot'un sitenizi belirli bir zaman diliminde kaç kez ziyaret ettiğidir. Google her site için farklı bir crawl bütçesi belirler; bu bütçe sitenin popülaritesine ve sunucu kapasitesine göre şekillenir. Büyük sitelerde (10.000+ sayfa) crawl bütçesi yönetimi kritik önem taşır.
Crawl Bütçesini Tüketen Unsurlar
- Parametre URL'leri:
/urunler?renk=kirmizi&boyut=XL&siralama=fiyatgibi URL'ler sonsuz kombinasyon üretir - Duplicate content: Aynı içeriğin birden fazla URL üzerinde sunulması
- Soft 404 sayfaları: 200 döndüren ama içeriği olmayan sayfalar
- Broken links: 404 döndüren iç linkler Googlebot'u boş taramalara yönlendirir
- Sonsuz sayfalama: /sayfa/1, /sayfa/2... biçimindeki uzun sayfalama zincirleri
Crawl Bütçesini Optimize Etme
| Sorun | Çözüm |
|---|---|
| Parametre URL'leri | Google Search Console > URL Parametreleri bölümünde parametreleri tanımla veya canonical kullan |
| Değersiz sayfalar | noindex veya robots.txt Disallow ile taramadan çıkar |
| Duplicate content | Canonical tag ile asıl URL'ye işaret et |
| Broken links | Düzenli tarama ile tespit et ve 301 redirect uygula |
| Yavaş sunucu | Sunucu yanıt süresi < 200ms hedefle; yavaş sunucu crawl oranını düşürür |
robots.txt Sık Yapılan Hatalar
Hata 1: CSS ve JS Dosyalarını Engellemek
Eski bir alışkanlıkla CSS, JS ve resim klasörlerini robots.txt ile engellemek Googlebot'un sayfayı doğru render etmesini engeller. Google artık sayfaları JavaScript dahil tam olarak render ederek değerlendiriyor. Bu dosyalara erişimi engellerseniz sayfa kalitesi değerlendirmesi hatalı olur.
Hata 2: Tüm Siteyi Yanlışlıkla Engellemek
Geliştirme ortamında eklenen Disallow: / direktifinin production'a taşınması; ya da WordPress'in "Arama motorlarının siteyi indekslemesine izin verme" seçeneğinin publish sonrası açık kalması. robots.txt dosyasını Robots.txt Checker aracımızla düzenli denetleyin.
Hata 3: noindex Sayfasına robots.txt ile Engel Koymak
Yukarıda açıklandığı gibi: noindex çalışması için Google'ın sayfayı tarayabilmesi gerekir. Disallow uygulanan bir sayfaya noindex eklemek işe yaramaz.
Hangi Sayfayı Nasıl Yönetmeli?
| Sayfa Türü | Önerilen Yöntem | Neden? |
|---|---|---|
| Admin paneli (/admin/) | robots.txt Disallow | Taranması gereksiz, link yok |
| Arama sonuç sayfaları | robots.txt Disallow | Sonsuz kombinasyon, değersiz |
| Teşekkür sayfaları | noindex (taranabilir kalmalı) | Link alabilir ama indekslenmemeli |
| Etiket/kategori sayfaları | noindex veya canonical | Genellikle duplicate, değer tartışmalı |
| Staging ortamı | robots.txt Disallow + HTTP auth | Kesinlikle indekslenmemeli |
| Eski/düşük kalite içerik | noindex veya güncelle | İçerik kalitesini artır veya gizle |
Sonuç
robots.txt ve noindex, birbirinin yerine kullanılan değil birbirini tamamlayan araçlardır. robots.txt crawl verimliliği için, noindex ise indeksleme kontrolü için kullanılır. Sitenizin mevcut robots.txt dosyasını ve meta robots etiketlerini düzenli kontrol edin; özellikle site taşıma veya yeniden yapılandırma sonrasında bu kontroller kritik önem taşır.