Nutch

Apache Nutch
Логотип программы Apache Nutch
Тип библиотека Java[вд], библиотека функций и поисковый робот
Разработчик Apache Software Foundation
Написана на Java
Операционная система Кроссплатформенное программное обеспечение
Первый выпуск 21 июля 2011[1]
Аппаратная платформа Java Virtual Machine
Последняя версия
Репозиторий github.com/apache/nutch
gitbox.apache.org/repos/…
github.com/apache/nutch.…
Состояние Активный
Лицензия Apache License 2
Сайт nutch.apache.org
Логотип Викисклада Медиафайлы на Викискладе
Предупреждение: Неизвестный параметр «frequently updated» шаблона Программа (это сообщение видно только при предпросмотре страницы).

Apache Nutch — модульный фреймворк для построения поисковых систем, написанный на языке Java и основанный на технологиях Lucene, Solr, Tika, Hadoop и Gora, адаптированных для специфики поиска в интернете (например, поддерживается crawler, база ссылочной связи, парсинг HTML и других форматов). Архитектура Nutch позволяет разработчикам создавать плагины для обработки нового медиаконтента, получение данных через нестандартные каналы для формирования типовых запросов или организации поискового кластера.

Система предоставляет средства для построения высокомасштабных систем индексации, отвлеченных от типа хранилища, что позволяет использовать такие хранилища для больших объемов данных, как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase и HDFS, так и SQL-базы и размещение в памяти NoSQL БД.

  1. https://projects.apache.org/json/projects/nutch.json
  2. Committee A. N. P. M. Downloads (англ.)

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by Nelliwinne