Common Crawl

Common Crawl
Дата основания 2007
Основатели Гил Эльбаз[англ.]
Расположение Сан-Франциско, Лос-Анжелес Калифорния США
Ключевые фигуры Питер Норвиг, Ричард Скрента
Сфера деятельности издательское дело и сбор данных
Сайт commoncrawl.org

Common Crawl — некоммерческая организация, которая сканирует Интернет и бесплатно предоставляет публике свои архивы и наборы данных[1][2]. Веб-архив Common Crawl на ноябрь 2024 года имеет более 250 миллиардов страниц, собранных с 2008 года[3].

Common Crawl был основан Гилом Эльбазом[англ.][4]. Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито[5]. Поисковики организации придерживаются политики nofollow и robots.txt. Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает работы, защищенные авторским правом, и распространяется из США на условиях добросовестного использования. Исследователи в других странах использовали такие методы, как перетасовка предложений или обращение к набору данных общего сканирования, чтобы обойти закон об авторском праве в других правовых юрисдикциях[6].

По состоянию на июнь 2022 года в наборах данных Common Crawl 46-47 % документов английский был основным языком (за ним следовали русский, немецкий, китайский, французский, японский, испанский, причём только русский достигал доли в 6 %, остальные не более 4% каждый)[7]. Но со временем доля английского постепенно падает и на ноябрь 2024 года составляет уже 43-44 %[8].

  1. Rosanna Xia. Tech entrepreneur Gil Elbaz made it big in L.A. (англ.). Los Angeles Times (5 февраля 2012). Дата обращения: 4 ноября 2024. Архивировано 15 октября 2023 года.
  2. Gil Elbaz and Common Crawl (англ.). NBC (13 апреля 2013). Дата обращения: 4 ноября 2024. Архивировано 27 ноября 2024 года.
  3. Common Crawl - Open Repository of Web Crawl Data (англ.). commoncrawl.org. Дата обращения: 4 ноября 2024. Архивировано 5 ноября 2024 года.
  4. ThisWeekIn Network. This Week in Startups 222 (англ.) (11 января 2012). Дата обращения: 4 ноября 2024.
  5. Nonprofit Common Crawl Offers a Database of the Entire Web, For Free, and Could Open Up Google to New Competition (англ.). MIT Technology Review (26 июня 2014). Дата обращения: 4 ноября 2024. Архивировано 26 июня 2014 года.
  6. Roland Schäfer. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) / Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Sara Goggi, Marko Grobelnik, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis. — Portorož, Slovenia: European Language Resources Association (ELRA), 2016-05. — С. 4500–4504. Архивировано 7 октября 2024 года.
  7. Statistics of Common Crawl Monthly Archives by commoncrawl. web.archive.org (12 июня 2022). Дата обращения: 4 ноября 2024. Архивировано 12 июня 2022 года.
  8. Statistics of Common Crawl Monthly Archives by commoncrawl. web.archive.org (1 октября 2024). Дата обращения: 4 ноября 2024. Архивировано 1 октября 2024 года.

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne