Common Crawl

Common Crawl, web 'de gezinen ve arşivlerini ve veri kümelerini halka açık bir şekilde sağlayan; ABD federal yasalarına göre de vergiden muaf olan, 501(c)(3) tipi bir kâr amacı gütmeyen kuruluştur.^[1]^[2] Common Crawl web arşivi, 2011'den beri toplanan petabaytlarca veriden oluşur.^[3] Genelde her ay taramaları tamamlar.^[4]

Common Crawl, Gil Elbaz tarafından kurulmuştur.^[5] Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır.^[6] Kuruluşun tarayıcıları nofollow ve robots.txt politikalarına uymaktadır. Common Crawl veri kümesini işlemek için açık kaynak kodu herkesin kullanımına açıktır.

Tarih değiştir

Amazon Web Services, 2012 yılında Açık Veri Kümeleri (İngilizce: Public Data Sets) programı aracılığıyla Common Crawl arşivini barındırmaya başladı.^[7]

Kuruluş, o yılın Temmuz ayında ".arc" dosyalarının yanı sıra meta veri dosyalarını ve tarayıcıların metin çıktılarını yayınlamaya başladı.^[8] Common Crawl arşivleri daha önce yalnızca ".arc" dosyalarını içeriyordu.

Aralık 2012'de blekko; Şubat - Ekim 2012 arasında gerçekleştirilen aramaların metaverilerini Common Crawl'a bağışladı.^[9] Bağışlanan veriler, Common Crawl'un "spam, porno ve aşırı SEO'nun etkisinden kaçınıp, taramasını iyileştirmesine" yardımcı oldu.

2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Yazılım Vakfının Nutch web tarayıcısını kullanmaya başladı.^[10] Common Crawl, Kasım 2013 taramasıyla ".arc" dosyalarını kullanmaktan ".warc" dosyalarına geçti.^[11]

Yaygın Tarama verilerinin geçmişi değiştir

Aşağıdaki veriler resmi Common Crawl Bloğundan 27 Ekim 2020 tarihinde Wayback Machine sitesinde arşivlendi. toplanmıştır.

Tarama Tarihi	TİB'in boyutu	Milyarlarca sayfa	Yorumlar
Kasım 2018	220	2.6
Ekim 2018	240	3.0
Eylül 2018	220	2.8
Ağustos 2018
Temmuz 2018	255	3.25
Haziran 2018	235	3.05
Mayıs 2018	215	2.75
Nisan 2018	230	3.1
Mart 2018	250	3.2
Şubat 2018	270	3.4
Ocak 2018	270	3.4
Aralık 2017	240	2.9
Kasım 2017	260	3.2
Ekim 2017	300	3.65
Eylül 2017	250	3.01
Ağustos 2017	280	3.28
Temmuz 2017	240	2.89
Haziran 2017	260	3.16
Mayıs 2017	250	2.96
Nisan 2017	250	2.94
Mart 2017	250	3.07
Şubat 2017	250	3.08
Ocak 2017	250	3.14
Kasım 2016	-	2.85
Ekim 2016	-	3.25
Eylül 2016	-	1.72
Ağustos 2016	-	1.61
Temmuz 2016	-	1.73
Haziran 2016	-	1.23
Mayıs 2016	-	1.46
Nisan 2016	-	1.33
Şubat 2016	-	1.73
Kasım 2015	151	1.82
Eylül 2015	106	1.32
Ağustos 2015	149	1.84
Temmuz 2015	145	1.81
Haziran 2015	131	1.67
Mayıs 2015	159	2.05
Nisan 2015	168	2.11
Mart 2015	124	1.64
Şubat 2015	145	1.9
Ocak 2015	139	1.82
Aralık 2014	160	2.08
Kasım 2014	135	1.95
Ekim 2014	254	3.7
Eylül 2014	220	2.8
Ağustos 2014	200	2.8
Temmuz 2014	266	3.6
Nisan 2014	183	2.6
Mart 2014	223	2.8	İlk Nutch taraması
Ocak 2014	148	2.3	Aylık gerçekleştirilen taramalar
Kasım 2013	102	2	Warc dosya biçimindeki veriler
Temmuz 2012	-	-	Arc dosya formatındaki veriler
Ocak 2012	-	-	Amazon Web Services'in Herkese Açık Veri Seti
Kasım 2011	40	5	Amazon'da ilk kullanılabilirlik

Norvig Web Veri Bilimi Ödülü değiştir

Common Crawl, SURFsara ile destek olarak, Benelüks'teki öğrencilere ve araştırmacılara açık bir yarışma olan Norvig Web Data Science Award'a sponsorluk yapmaktadır.^[12]^[13] Ödül, aynı zamanda ödülün jüri komitesine de başkanlık eden Peter Norvig'e verildi.

Kaynakça değiştir

^ Rosanna Xia (5 Şubat 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "Gil Elbaz and Common Crawl". NBC News. 4 Nisan 2013. 8 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "So you're ready to get started". 8 Ekim 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.
^ Lisa Green (8 Ocak 2014). "Winter 2013 Crawl Data Now Available". 25 Mayıs 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.
^ "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. 10 Ocak 2012.
^ Tom Simonite (23 Ocak 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. 26 Haziran 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ Jennifer Zaino (13 Mart 2012). "Common Crawl To Add New Data In Amazon Web Services Bucket". Semantic Web. 1 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ Jennifer Zaino (16 Temmuz 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ Jennifer Zaino (18 Aralık 2012). "Blekko Data Donation Is A Big Benefit To Common Crawl". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "Common Crawl's Move to Nutch". Common Crawl. 20 Şubat 2014. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "New Crawl Data Available!". Common Crawl. 27 Kasım 2013. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "The Norvig Web Data Science Award". Common Crawl. 15 Kasım 2012. 31 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.
^ "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. 15 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

Dış bağlantılar değiştir

Kaliforniya, Amerika Birleşik Devletleri'nde Yaygın Tarama13 Mart 2013 tarihinde Wayback Machine sitesinde arşivlendi.
Tarayıcı, kitaplıklar ve örnek kod içeren Ortak Tarama GitHub Deposu 13 Ağustos 2020 tarihinde Wayback Machine sitesinde arşivlendi.
Ortak Tarama Tartışma Grubu8 Temmuz 2019 tarihinde Wayback Machine sitesinde arşivlendi.
Ortak Tarama Blogu

[latimes-1] Rosanna Xia (5 Şubat 2012). "Tech entrepreneur Gil Elbaz made it big in L.A." Los Angeles Times. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[pressheretv-2] "Gil Elbaz and Common Crawl". NBC News. 4 Nisan 2013. 8 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[3] "So you're ready to get started". 8 Ekim 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.

[theverge-4] Lisa Green (8 Ocak 2014). "Winter 2013 Crawl Data Now Available". 25 Mayıs 2018 tarihinde kaynağından arşivlendi. Erişim tarihi: 2 Haziran 2018.

[twist-5] "Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222". This Week In Startups. 10 Ocak 2012.

[technologyreview-6] Tom Simonite (23 Ocak 2013). "A Free Database of the Entire Web May Spawn the Next Google". MIT Technology Review. 26 Haziran 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[semanticweb_1-7] Jennifer Zaino (13 Mart 2012). "Common Crawl To Add New Data In Amazon Web Services Bucket". Semantic Web. 1 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[semanticweb_2-8] Jennifer Zaino (16 Temmuz 2012). "Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[semanticweb_3-9] Jennifer Zaino (18 Aralık 2012). "Blekko Data Donation Is A Big Benefit To Common Crawl". Semantic Web. 12 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[ccnutch-10] "Common Crawl's Move to Nutch". Common Crawl. 20 Şubat 2014. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[ccnov2013-11] "New Crawl Data Available!". Common Crawl. 27 Kasım 2013. 24 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[ccaward-12] "The Norvig Web Data Science Award". Common Crawl. 15 Kasım 2012. 31 Temmuz 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[dtlsaward-13] "Norvig Web Data Science Award 2014". Dutch Techcentre for Life Sciences. 15 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 31 Temmuz 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]