Вы находитесь здесь: distributed.ru » Проекты распределённых вычислений » Проект DepSpid
Проект DepSpid
Проект DepSpid - the dependency spider, открыл свободную регистрацию. Проект на данный момент находится в alpha-стадии.
DepSpid - это распределенный тип поискового робота, вроде тех, что используются поисковыми машинами. Вся информация, собранная проектом, будет публично-доступна.
Основные цели
- Создание базы данных, содержащей зависимости между индивидуальными вебсайтами и группами вебсайтов.
- Сбор статистических данных о структуре сети.
Принцип работы
Каждое задание DepSpid обрабатывается в две фазы:
- Сетевая фаза (фаза 1)
- Вычислительная фаза (фаза 2)
Во время фазы №1 приложение DepSpid сканирует набор web-страниц и сохраняет результат сканирования во временной базе для дальнейшей обработки во время фазы №2. Каждое задание DepSpid состоит из нескольких подзаданий, обычно от 10 до 50. Подзаданием является домен, поддомен или каталог домена. Чтобы снизить нагрузку на посещаемые web-сайты, приложение циклически переходит между разными подзаданиями. Фаза №1 не использует ресурсы процессора, но использует сетевой трафик. Данная фаза занимает от нескольких секунд до нескольких минут на каждое подзадание, но может выполняться от нескольких часов до нескольких дней в зависимости от доступности и скорости соединения или времени отклика посещаемых сайтов.
Фаза №2 не требует интернет-соединения, но использует больше ресурсов процессора. Во время данной фазы приложение DepSpid использует данные, собранные во время фазы №1, и вычисляет зависимости между всеми страницами. После этого зависимости на найденные внешние ссылки, которые удовлетворяют определенным условиям, сообщаются серверу проекта и загружаются в его главную базу данных.
Особенности
На данный момент имеется приложение только под Windows. Возможно, в будущем будет доступна версия и для Linux.
DepSpid практически не использует ресурсы CPU, поэтому работает параллельно с другими BOINC-проектами (т.н. non-CPU intensive). Ему нужен только доступ в интернет. Ксати, очки начисляются за потребленный трафик.
Задания пока раздаются не очень часто, где-то 1-2 раза в неделю и небольшими порциями. Приложение весит 0.5Mb, файлы заданий и результатов небольшие. Каждое задание выполняется от 0.5 часа до нескольких часов и даже дней. За одно обращение к серверу проекта выдается не более 2-х заданий, несмотря на настройки проекта. Это ограничение действует, пока проект находится в alpha-стадии. Хотя в настройках можно указать до 20 заданий, которые могут выполняться параллельно.