Common Crawl Lookup
Dünyanın en büyük açık web veritabanında web sayfanızın tarama dizinlerini ve varoluş kayıtlarını bulun.
Ne Öğrenebilirsiniz?
Veritabanı İndeksi
Bu alan adının veya sayfa yolunun son Common Crawl dumpında bulunup bulunmadığı.
AI Modelleri Eğitim Seti
Bilgisayar modellerinin potansiyel beslenme kaynaklarında sitenizin yeri.
Ham (Raw) Veri
Arşivlenmiş içerik paketlerinin detay tablosuna erişim ve durum incelemeleri.
Tarihsel İz
Geçmiş aylardaki dump verilerinde karşılaştırmalar yapabilme.
Sık Sorulan Sorular
Common Crawl nedir?
Terabaytlarca web verisini periyodik olarak açık kaynaklı arxiv eden ve devasa boyutlarda veri sunan küresel bir kuruluştur.
Niçin kullanılır?
Büyük yapay zeka modellerinin (ChatGPT vb.) eğitim setinde web sitenizin yer alıp almadığını kontrol etmenin en pratik yollarından biridir.
What Is CommonCrawl Archive Lookup?
CommonCrawl is a publicly available, free web archive that stores snapshots of billions of web pages every month. SEO professionals use CommonCrawl data for historical content analysis, detecting deleted pages, and backlink discovery. This tool queries archive records for a specific URL or domain via the CommonCrawl CDXAPI.
Why Does It Matter?
- Historical content recovery: Access previous versions of deleted or modified pages to re-evaluate lost content.
- Backlink research: CommonCrawl datasets serve as a source for part of the data in paid tools like Ahrefs and Semrush.
- Domain history: Verify the historical content of a domain you're considering purchasing to reduce the risk of penalty history.
- Competitor analysis: Track changes in competitor pages over time.
How to Use
Enter the URL or domain you want to query. The tool queries CommonCrawl CDX servers, listing the number of archive records for that URL, first and last crawl dates, and HTTP status codes. Click on date ranges in the results to access archive content from that period.
FAQ
How often is CommonCrawl data updated? CommonCrawl releases a new crawl version each month, so data is current with approximately 4-6 weeks delay.
How does it differ from Wayback Machine? While Wayback Machine provides a user interface, CommonCrawl provides raw datasets and API access, ideal for larger-scale research.