Common Crawl

Common Crawl
Common Crawl
Дата основания	2007
Основатели	Гил Эльбаз[англ.]
Расположение	Сан-Франциско, Лос-Анжелес Калифорния США
Ключевые фигуры	Питер Норвиг, Ричард Скрента
Сфера деятельности	издательское дело и сбор данных
Сайт	commoncrawl.org

Common Crawl — некоммерческая организация, которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных^[1]^[2]. Веб-архив Common Crawl на ноябрь 2024 года имеет более 250 миллиардов страниц, собранных с 2008 года^[3].

Common Crawl был основан Гилом Эльбазом^[англ.]^[4]. Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито^[5]. Поисковики организации придерживаются политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования. Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к набору данных общего сканирования, чтобы обойти закон об авторском праве в других правовых юрисдикциях^[6].

По состоянию на июнь 2022 года в наборах данных Common Crawl 46-47 % документов английский был основным языком (за ним следовали русский, немецкий, китайский, французский, японский, испанский, причём только русский достигал доли в 6 %, остальные не более 4% каждый)^[7]. Но со временем доля английского постепенно падает и на ноябрь 2024 года составляет уже 43-44 %^[8].

↑ Rosanna Xia. Tech entrepreneur Gil Elbaz made it big in L.A. (англ.). Los Angeles Times (5 февраля 2012). Дата обращения: 4 ноября 2024. Архивировано 15 октября 2023 года.
↑ Gil Elbaz and Common Crawl (англ.). NBC (13 апреля 2013). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.
↑ Common Crawl - Open Repository of Web Crawl Data (англ.). commoncrawl.org. Дата обращения: 4 ноября 2024. Архивировано 5 ноября 2024 года.
↑ ThisWeekIn Network. This Week in Startups 222 (англ.) (11 января 2012). Дата обращения: 4 ноября 2024.
↑ Nonprofit Common Crawl Offers a Database of the Entire Web, For Free, and Could Open Up Google to New Competition (англ.). MIT Technology Review (26 июня 2014). Дата обращения: 4 ноября 2024. Архивировано 26 июня 2014 года.
↑ Roland Schäfer. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) / Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis. — Portorož, Slovenia: European Language Resources Association (ELRA), 2016-05. — С. 4500–4504. Архивировано 7 октября 2024 года.
↑ Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (12 июня 2022). Дата обращения: 4 ноября 2024. Архивировано 12 июня 2022 года.
↑ Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (1 октября 2024). Дата обращения: 4 ноября 2024. Архивировано 1 октября 2024 года.

[1] Rosanna Xia. Tech entrepreneur Gil Elbaz made it big in L.A. (англ.). Los Angeles Times (5 февраля 2012). Дата обращения: 4 ноября 2024. Архивировано 15 октября 2023 года.

[2] Gil Elbaz and Common Crawl (англ.). NBC (13 апреля 2013). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.

[3] Common Crawl - Open Repository of Web Crawl Data (англ.). commoncrawl.org. Дата обращения: 4 ноября 2024. Архивировано 5 ноября 2024 года.

[4] ThisWeekIn Network. This Week in Startups 222 (англ.) (11 января 2012). Дата обращения: 4 ноября 2024.

[5] Nonprofit Common Crawl Offers a Database of the Entire Web, For Free, and Could Open Up Google to New Competition (англ.). MIT Technology Review (26 июня 2014). Дата обращения: 4 ноября 2024. Архивировано 26 июня 2014 года.

[6] Roland Schäfer. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) / Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis. — Portorož, Slovenia: European Language Resources Association (ELRA), 2016-05. — С. 4500–4504. Архивировано 7 октября 2024 года.

[7] Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (12 июня 2022). Дата обращения: 4 ноября 2024. Архивировано 12 июня 2022 года.

[8] Statistics of Common Crawl Monthly Archives by commoncrawl (неопр.). web.archive.org (1 октября 2024). Дата обращения: 4 ноября 2024. Архивировано 1 октября 2024 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Common Crawl

From Wikipedia, the free encyclopedia · View on Wikipedia