DUMP-2012 - Только хардкор! - "Аннотировать за 40 мс" Александр Лившиц (Яндекс)
- 6. Каким должен быть сниппет?
• Сниппет должен быть ;)
• Содержать слова запроса
• Помогать быстро и легко понять, насколько
результат соответствует запросу
• Отвечать на вопрос пользователя
• Выглядеть прилично
6
- 7. Муки выбора
• Выбираем текст
• Генерируем кандидаты
• Считаем факторы:
— Слова запроса
— Качество текста
— Положение в документе
— Сегментаторные
7
- 11. Сниппеты и Яндекс
• 120 млн. поисковых запросов в сутки
• 1.5 млрд. сниппетов в сутки
• 500мс на ответ пользователю
• Q95 50мс - на построение сниппетов по запросу
• Q99,6 40 мс - на сниппет
11
- 12. Архитектура Я.Поиска
Верхний
Поиск метапоиск Сниппеты
Средний
метапоиск
Базовый Базовый Базовый
поиск поиск поиск
12
- 13. В начале был документ
• 10 млрд. документов
• Без HTML
• Подокументное сжатие
• Дополнительные данные
• Разметка
13
- 14. Море кандидатов
• Анализируем не весь текст
• Полный перебор — слишком дорого
• Генерируем не все кандидаты
• С n-фрагментными все еще хуже
14
- 18. Вопросы?
Александр Лившиц
руководитель группы разработки
сниппетов
alivshits@yandex-team.ru