Как устроен поисковик Яндекс

Как мы понимаем, что такое поисковик Яндекс. Как обычную стандартную схему, состоящую из таких систем как: паук, странствующий паук, система выдачи результата, база данных и т.д. И этих пунктов гораздо больше.

Сегодня поисковик Яндекс знает приблизительно:

  • десять в двенадцатой степени известных URL
  • десять в десятой степени проиндексированных страниц
  • десять в десятой степени для поиска страниц

На сегодняшний день поисковик Яндекс умеет в режиме реального времени (real time system):

  • индексировать
  • обрабатывать запросы

На сегодняшний момент в поисковике Яндекс:

  • более четырех сот разработчиков поиска
  • многие эксперименты на полной информации (т.е. поисковик Яндекс имеет всю необходимую ему информацию, что бы поставить эксперимент с новым поисковым алгоритмом, что бы сделать его лучше)

Поисковик ЯндексВся система, которая работает в поисковике Яндекс (которая выводит результат, в которой состоит паук и т.д.) называется Content System (система контента). Система контента включает в себя системы для обхода интернет URL адреса, построения индекса и развертывания показателей в режиме реального времени.

Работа Content System состоит из следующих шагов:

  • робот создает список URL адресов (crawling)
  • выборка прогнозирует попадание URL адресов в индекс (selection)
  • получение информации из интернета
  • построение обратного индекса и сохранение в базе данных информации
  • детекция спама
  • детекция дубликата
  • еще одна выборка
  • определение результатов в режиме реального времени

На самом деле поисковик Яндекс имеет две Content System:

  • Batch (пакетная) для обработки десяти в двенадцатой степени адресов
  • Real-time (в режиме реального времени) для обработки десяти в девятой степени адресов

Итак, теперь нам более менее стало понятным, что система выкачивает информацию, строит обратный инвертированный индекс и сохраняет это в базе данных. И когда случается обновление базы данных, то это называется апдейтом.

Как происходит поиск в поисковике Яндекс?

  • запрос токенезируется, далее к нему применяется морфологический анализ, и потом ищутся его синонимы
  • из индекса отбираются документы, которые больше подходят к запросу
  • для документов, которые были отфильтрованы, рассчитываются признаки
  • к признакам применяется формула, которая дает конечную оценку релевантности

То, что поисковик Яндекс не хранит в прямом индексе называется инвертированным индексом. Он состоит из двух файлов:

  • key — отсортированный перечень слов, с указанием в inv-файле
    координат хранения
  • inv — плоский файл, содержащий сведения о позициях:
    — для 1 ключа позиции идут подряд
    — отсортированы позиции по id документа

Если проще инвертированный индекс это такие файлики в которых указаны координаты того или иного слова в коллекции документов.

Фильтрация, которую применяет поисковик Яндекс.

  • слова из заголовков должны быть важнее, чем в тексте
  • существительные должны быть важнее прилагательных
  • крайне редкие слова способны только помешать (опечатки)
  • стоп-слова должны быть нулевого веса (предлоги, союзы)
  • порой частые слова должны быть важными, их нельзя скидывать со счетов (география, например: нотариус москва)

Машинное обучение MatrixNet.

При помощи машинного обучения поисковик Яндекс решает много задач:

  • что обойти
  • что выложить
  • сниппеты
  • задачи производительности
  • выявление спама
  • решение показа рекламы

Поисковик Яндекс это очень сложный механизм и ему нужно только одно — это ответить релевантно на запрос пользователя, дать нужный контент пользователю. И если выбранное вами направление правильное, то проблем с поисковиком Яндекс у вас не будет.

© mustic.ru

vvedite.

Нравится статья? Поделись с другом.

51 комментарии к “Как устроен поисковик Яндекс

  • Да, Яндекс серьёзная система. Кстати Артём там где вы описываете, что яндекс имеет на сегодняшний момент нужно подкорректировать текст, после слова «что бы» начинается новый пункт.

    Ответить
    • Артем Свечин

      on

      Пардон! Подкорректировал.

      Ответить
    • Светлана

      on

      Мне было интересно познакомиться с поисковой системой Яндекс. Я никогда не думала, что он имеет такую непростую организацию.

      Ответить
      • Вадим

        on

        Четыреста человек Вам и не такую организацию устроят. Такого наворотить могут.

        Ответить
        • Я считаю, что все эти люди выполняют свою работу на все 100%.

          Ответить
          • Игорь

            on

            Согласен что выполняют работу на отлично, но если равнять с Гуглом, Яша на много уступает ему. Так что не нужно топтаться на месте, а надо наращивать темп.

            Ответить
          • Вадим

            on

            Игорь я поддержу Вас. Если у Яндекса со своими мозгами туго, пусть у Гугла позаимствуют.

            Ответить
          • Игорь

            on

            Ну Яша постепенно все же внедряет новшества.

            Ответить
          • Вадим

            on

            Новшества в виде карательных фильтров как Минусинск? Других новшеств не вижу.

            Ответить
          • Вадим

            on

            Справляются не очень, но лучше чем раньше.

            Ответить
      • Светлана, и здесь я бы сказал описана только маленькая доля всех возможностей этой поисковой системы.

        Ответить
        • Вадим

          on

          Мне бы хотелось знать возможность Яндекса определения накрутки.

          Ответить
  • Вадим

    on

    Четыреста разработчиков поиска у Яндекса, а сделать выдачу релевантной как у Гугла до сих пор не могут.

    Ответить
    • Вадим, а может они не хотят это делать?

      Ответить
      • Светлана

        on

        А какая корысть сотрудникам Яндекса не делать этого?

        Ответить
        • Вадим

          on

          Сотрудники Яндекса не могут этого сделать. Квалификации не хватает, а может им указ дали такой.

          Ответить
          • А мне наоборот выдача яндекса больше нравится чем гугла.

            Ответить
          • Игорь

            on

            Что есть то есть, кое в чем у Яши удобнее и лучше Гугла.

            Ответить
          • Вадим

            on

            Мне Яша поиск выдаёт когда Гугл просит цифры с картинки ввести. Этим яша лучше.

            Ответить
          • Вадим

            on

            Странное у Вас предпочтение, Александр. Чем Яндекс лучше?

            Ответить
        • Мне кажется никакой корысти в этом у них нет. У каждого поисковика свои алгоритмы и в этом вся причина.

          Ответить
          • Вадим

            on

            Если корысти нет зачем они свои тулбары в каждую программу устанавливают.

            Ответить
          • Вадим, как это зачем эти тулбары? Чтобы пользовались именно их поисковиком.

            Ответить
    • Светлана

      on

      Наверно это не так просто. Но зато мы так и воспринимаем эту пару: Гугл и Яндекс как друзей-соперников.

      Ответить
      • Вадим

        on

        Соперничество приводит к улучшению поисковых систем. Плохим пользоваться не будут.

        Ответить
        • Мне кажется, что плохой поисковик и работать не будет.

          Ответить
          • Вадим

            on

            Яндекс может быть любым, потому что он гегемон и диктатор.

            Ответить
      • Я не воспринимаю их как соперников. Скорее всего как коллег.

        Ответить
        • Игорь

          on

          Александр, это они для нас всех коллеги, а между собой соперники.

          Ответить
          • Вадим

            on

            Яндекс государство поддерживает, а то бы гугл завалил Яндекс.

            Ответить
        • Вадим

          on

          Гугл стремится к мировой монополии и Яндекс ему конкурент.

          Ответить
          • Игорь

            on

            Он ему конкурент,только в русскоязычной сфере,а далее пока сил не хватает.

            Ответить
  • Да Яндекс монополист можно сказать у нас в стране и в связи с этим могут неадекватно себя вести по отношению к пользователям.

    Ответить
    • Светлана

      on

      А что Яндекс так плохо относится к пользователям? Как-то я слушала их вебинар — вполне доброжелательно.

      Ответить
      • Светлана, а что за вебинары? Я так понял это работников самого Яндекса.

        Ответить
        • Вадим

          on

          Необязательно Яндекса. Тот же Борисов говорит о белом сео для начинающих.

          Ответить
      • Вадим

        on

        К блогерам с белым сео яндекс относится доброжелательно.

        Ответить
  • Вадим

    on

    Все стремятся повысить себя в выдаче, а что нужно сделать для обратной операции. Чтобы сайт считался Яндексом плохим, но не забаненым?

    Ответить
    • Интересный вопрос, а для чего тебе это нужно?

      Для Яши плохой это забаненый.

      Ответить
  • Вадим

    on

    Сайт под АГС и забаненый сайт одно и тоже? Возникла необходимость в сайте с плохой репутацией.

    Ответить
    • Не знаю для чего вам это нужно, но смотрите не до играйтесь, а то под АГС загремите.

      Ответить
  • Вадим

    on

    Каких страниц больше проиндексированых или непроиндексированых? Для этого из десяти в 12 степени нужно вычесть 10 в десятой степени. Разница навскидку должна превышать десять в десятой степени.

    Ответить
    • Вадим, что то вы такое накрутили. Если сделать такие расчёты, то разница будет не такой, какую вы написали.

      Ответить
      • Вадим

        on

        Почему не такой. Это степень, не просто присоединение нулей.

        Ответить
        • Ну так степень тоже сокращаются как иксы в числителе и знаменателе. Помните такие правила?

          Ответить
          • Ого, я смотрю у вас уже математика в ход пошла.

            Ответить
          • Вадим

            on

            Вы ньютоны, паскали и килоджоули не упомянули. Они важный элемент расчёта при возведении числа в степень...

            Ответить
  • Как все сложно, это какие умные люди разрабатывали эти программы, чтобы поисковики так сортировали сайты.

    Ответить
    • Вадим

      on

      Олеся, Яндекс не с нуля разрабатывал. До него Гугл был, Рамблер и другие ПС.

      Ответить
  • Вадим

    on

    Для чего Яндексу нужны координаты слова и какие слова он туда заносит, ключевые? Координаты слова берутся по номеру строки? Как это может помочь.

    Ответить
  • ЕМНИП, тот же Гугл многократно клялся и божился, что микроразметка не влияет на позицию сайта в выдаче — только на форматирование сниппета, явно предназначенного для людей, обманывать которых вроде как не в интересах самого вебмастера.

    Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *