İçeriğe geç
Teknik SEO

robots.txt ve Noindex Rehberi: Crawl Bütçesini Doğru Yönetmek

·10 dk dakika okuma·Teknik SEO Editörü

robots.txt ve Noindex Neden Karıştırılır?

İkisi de sayfaları arama motorlarından "gizlemek" için kullanıldığı düşünülen direktiflerdir. Ancak çalışma mantıkları tamamen farklıdır ve yanlış yerde kullanıldığında ciddi SEO sorunlarına yol açar. Bu iki mekanizmayı doğru anlamak, crawl bütçesini verimli kullanmanın ve indekslenme sorunlarının önlenmesinin temelidir.

Temel Fark:
  • robots.txt: Googlebot'un sayfayı ziyaret etmesini engeller — ama indekslemeyi garanti etmez
  • noindex: Sayfanın ziyaret edilmesine izin verir ama arama indeksine alınmasını engeller

robots.txt Nasıl Çalışır?

robots.txt, site kökünde (seoaraci.com/robots.txt) bulunan ve botlara hangi URL'leri taramaması gerektiğini söyleyen düz metin dosyasıdır. Googlebot sayfayı crawl etmeden önce bu dosyayı kontrol eder.

Temel Sözdizimi

  • User-agent: * → Tüm botlara uygulanır
  • User-agent: Googlebot → Yalnızca Google'ın tarayıcısına uygulanır
  • Disallow: /admin/ → /admin/ altındaki tüm URL'leri engeller
  • Allow: /admin/public → Engelleme içinde istisna tanımlar
  • Sitemap: https://seoaraci.com/sitemap.xml → Sitemap URL'sini bildirir

Kritik Uyarı: robots.txt İndekslemeyi Engellemez

En sık yapılan yanlış budur. Disallow ile engellenen bir sayfayı Google crawl edemez; dolayısıyla o sayfada noindex etiketi görse bile okuyamaz. Ama bu sayfanın indekslenmeyeceği anlamına gelmez: Eğer başka bir siteden o sayfaya link varsa Google, sayfayı URL olarak indeksleyebilir — içeriği görmeden. Bu durumda arama sonuçlarında "Bu sayfa hakkında açıklama yok" şeklinde bir URL görünür.

Sonuç: Bir sayfanın indekslenmesini kesin olarak engellemek istiyorsanız, o sayfanın taranabilir olması ve <meta name="robots" content="noindex"> içermesi gerekir.

noindex Direktifi Nasıl Çalışır?

noindex, Google'a "bu sayfayı tara ama arama sonuçlarında gösterme" der. İki yöntemle uygulanabilir:

1. HTML Meta Etiketi

Sayfa <head> bölümüne eklenir:

  • <meta name="robots" content="noindex"> → Sayfa indekslenmiyor, linkler takip ediliyor
  • <meta name="robots" content="noindex, nofollow"> → Sayfa indekslenmiyor, linkler de takip edilmiyor
  • <meta name="robots" content="noindex, follow"> → Sayfa indekslenmiyor ama linkleri takip ediliyor (link equity aktarımı devam eder)

2. X-Robots-Tag HTTP Header

HTML içeriği olmayan dosyalar (PDF, görsel) için kullanılır. Sunucu yanıtında HTTP başlığı olarak gönderilir. HTTP Header Checker aracımızla mevcut header'larınızı inceleyebilirsiniz.

Crawl Bütçesi Nedir ve Nasıl Yönetilir?

Crawl bütçesi, Googlebot'un sitenizi belirli bir zaman diliminde kaç kez ziyaret ettiğidir. Google her site için farklı bir crawl bütçesi belirler; bu bütçe sitenin popülaritesine ve sunucu kapasitesine göre şekillenir. Büyük sitelerde (10.000+ sayfa) crawl bütçesi yönetimi kritik önem taşır.

Crawl Bütçesini Tüketen Unsurlar

  • Parametre URL'leri: /urunler?renk=kirmizi&boyut=XL&siralama=fiyat gibi URL'ler sonsuz kombinasyon üretir
  • Duplicate content: Aynı içeriğin birden fazla URL üzerinde sunulması
  • Soft 404 sayfaları: 200 döndüren ama içeriği olmayan sayfalar
  • Broken links: 404 döndüren iç linkler Googlebot'u boş taramalara yönlendirir
  • Sonsuz sayfalama: /sayfa/1, /sayfa/2... biçimindeki uzun sayfalama zincirleri

Crawl Bütçesini Optimize Etme

SorunÇözüm
Parametre URL'leriGoogle Search Console > URL Parametreleri bölümünde parametreleri tanımla veya canonical kullan
Değersiz sayfalarnoindex veya robots.txt Disallow ile taramadan çıkar
Duplicate contentCanonical tag ile asıl URL'ye işaret et
Broken linksDüzenli tarama ile tespit et ve 301 redirect uygula
Yavaş sunucuSunucu yanıt süresi < 200ms hedefle; yavaş sunucu crawl oranını düşürür

robots.txt Sık Yapılan Hatalar

Hata 1: CSS ve JS Dosyalarını Engellemek

Eski bir alışkanlıkla CSS, JS ve resim klasörlerini robots.txt ile engellemek Googlebot'un sayfayı doğru render etmesini engeller. Google artık sayfaları JavaScript dahil tam olarak render ederek değerlendiriyor. Bu dosyalara erişimi engellerseniz sayfa kalitesi değerlendirmesi hatalı olur.

Hata 2: Tüm Siteyi Yanlışlıkla Engellemek

Geliştirme ortamında eklenen Disallow: / direktifinin production'a taşınması; ya da WordPress'in "Arama motorlarının siteyi indekslemesine izin verme" seçeneğinin publish sonrası açık kalması. robots.txt dosyasını Robots.txt Checker aracımızla düzenli denetleyin.

Hata 3: noindex Sayfasına robots.txt ile Engel Koymak

Yukarıda açıklandığı gibi: noindex çalışması için Google'ın sayfayı tarayabilmesi gerekir. Disallow uygulanan bir sayfaya noindex eklemek işe yaramaz.

Hangi Sayfayı Nasıl Yönetmeli?

Sayfa TürüÖnerilen YöntemNeden?
Admin paneli (/admin/)robots.txt DisallowTaranması gereksiz, link yok
Arama sonuç sayfalarırobots.txt DisallowSonsuz kombinasyon, değersiz
Teşekkür sayfalarınoindex (taranabilir kalmalı)Link alabilir ama indekslenmemeli
Etiket/kategori sayfalarınoindex veya canonicalGenellikle duplicate, değer tartışmalı
Staging ortamırobots.txt Disallow + HTTP authKesinlikle indekslenmemeli
Eski/düşük kalite içeriknoindex veya güncelleİçerik kalitesini artır veya gizle

Sonuç

robots.txt ve noindex, birbirinin yerine kullanılan değil birbirini tamamlayan araçlardır. robots.txt crawl verimliliği için, noindex ise indeksleme kontrolü için kullanılır. Sitenizin mevcut robots.txt dosyasını ve meta robots etiketlerini düzenli kontrol edin; özellikle site taşıma veya yeniden yapılandırma sonrasında bu kontroller kritik önem taşır.

#robots.txt#noindex#crawl bütçesi#teknik seo#googlebot#meta robots
Blog'a Dön