İçeriğe geç
Veri Arşivi · Ücretsiz

Common Crawl Lookup

Dünyanın en büyük açık web veritabanında web sayfanızın tarama dizinlerini ve varoluş kayıtlarını bulun.

Sorgula →

Ne Öğrenebilirsiniz?

Veritabanı İndeksi

Bu alan adının veya sayfa yolunun son Common Crawl dumpında bulunup bulunmadığı.

AI Modelleri Eğitim Seti

Bilgisayar modellerinin potansiyel beslenme kaynaklarında sitenizin yeri.

Ham (Raw) Veri

Arşivlenmiş içerik paketlerinin detay tablosuna erişim ve durum incelemeleri.

Tarihsel İz

Geçmiş aylardaki dump verilerinde karşılaştırmalar yapabilme.

Sık Sorulan Sorular

Common Crawl nedir?

Terabaytlarca web verisini periyodik olarak açık kaynaklı arxiv eden ve devasa boyutlarda veri sunan küresel bir kuruluştur.

Niçin kullanılır?

Büyük yapay zeka modellerinin (ChatGPT vb.) eğitim setinde web sitenizin yer alıp almadığını kontrol etmenin en pratik yollarından biridir.

CommonCrawl Arşiv Sorgulama Nedir?

CommonCrawl, her ay milyarlarca web sayfasının anlık görüntüsünü depolayan, kamuya açık ve ücretsiz bir web arşividir. SEO profesyonelleri, CommonCrawl verilerini geçmiş içerik analizi, silinmiş sayfaların tespiti ve backlink keşfi için kullanır. Bu araç, CommonCrawl'ın CDXAPI'si üzerinden belirli bir URL veya domain'e ait arşiv kayıtlarını sorgular.

Neden Önemlidir?

  • Geçmiş içerik kurtarma: Silinen veya değiştirilen sayfaların önceki sürümlerine ulaşarak kayıp içerikleri yeniden değerlendirebilirsiniz.
  • Backlink araştırması: CommonCrawl veri setleri, Ahrefs ve Semrush gibi ücretli araçların bir bölümü için kaynak oluşturur.
  • Domain geçmişi: Satın almayı düşündüğünüz bir domain'in geçmiş içeriklerini kontrol ederek ceza geçmişi riskini azaltabilirsiniz.
  • Rakip analizi: Rakip sayfaların zaman içindeki değişimlerini takip edebilirsiniz.

Nasıl Kullanılır?

Sorgulamak istediğiniz URL'yi veya domain'i girin. Araç, CommonCrawl CDX sunucusunu sorgulayarak o URL'nin mevcut arşiv kayıt sayısını, ilk ve son tarama tarihlerini ve HTTP durum kodlarını listeler. Sonuçlardaki tarih aralıklarına tıklayarak ilgili dönemin arşiv içeriğine erişebilirsiniz.

SSS

CommonCrawl verisi ne sıklıkla güncellenir? CommonCrawl her ay yeni bir tarama sürümü yayınlar; bu nedenle veriler yaklaşık 4-6 hafta gecikmeyle günceldir.

Wayback Machine'den farkı nedir? Wayback Machine kullanıcı arayüzü sunarken, CommonCrawl ham veri setleri ve API erişimi sağlar; daha büyük ölçekli araştırmalar için idealdir.