Как работают Яндекс.Новости Татьяна Исаева
Модель сервиса
Релевантный новостной ответ Алгоритм, формирующий ответ на новостные запросы пользователей, ориентируется на следующие свойства сообщений: принадлежность первоисточнику оперативность цитируемость информативность Источники, у которых доминируют такие сообщения, предлагаются пользователям в первую очередь.
Требования к сообщению Формат (не подходят для трансляции реклама; не обработанные силами редакции пресс-релизы; новости сайта; аудио- и видеоматериалы, не сопровождаемые связным печатным текстом; таблицы и списки, не сопровождаемые связным печатным текстом) Технология (если текст сообщения на сайте был изменён, необходимо поместить его в экспортный файл в изменённом виде или прислать запрос на удаление неактуального сообщения) Требования законодательства (аккуратное цитирование; нормы литературного русского языка)
Что такое *дубликат Дубликаты – документы, в большой степени совпадающие с оригинальным сообщением. Они автоматически определяются до формирования сюжета, не представлены в сюжетах и не участвуют в поиске по сервису. Из каждой группы дубликатов остается по одному сообщению («мастеру»), которое может быть представлено на страницах сюжета и в результатах поиска. «Мастер» определяется: по времени публикации сообщения на сайте; по сравнительному анализу текстов; по цитированию источника (учитываются гиперссылки, текстовые упоминания).
Статистика «копипейста» Доля дубликатов сообщений в российских интернет-СМИ - 20% Доля изданий, которые ни разу не перепечатывали чужие материалы «вчистую» - тоже 20% Доля сообщений, содержащих ссылки на первоисточники (названия других СМИ или гиперссылки) – всего 8% По данным аналитического отчета Яндекса «Медиасфера Рунета», зима 2009 http://download.yandex.ru/company/yandex_on_russian_internet_media_winter_2009.pdf
Сюжет в Яндекс.Новостях
Схема создания сюжета
Выбор заголовка сюжета Соответствие региону пользователя Лексическая и фактологическая «ядерность» Актуальность фактов Информативность и читаемость Цель: первый по времени заголовок, наиболее полно отражающий актуальную фактическую сторону сюжета, не содержащий нехарактерных для сюжета слов и фактов.
Создание аннотации сюжета (дайджеста) Из всех сообщений сюжета автоматически выделяются наиболее значимые объекты, имена людей, названия организаций, географические объекты, даты и числа. Они, наряду с ключевыми словами сюжета и новостными запросами, определяют выбор текстов для аннотации. Цель: показать предложения из сообщений, содержащие основные факты события
Аннотация сюжета. Информативность
Заголовок сюжета. «Ядерность» лексики
Выбор заголовков для первой страницы. Цитируемость в сюжете
Определение жанра сообщения Лента – короткие новостные сообщения Новость – более развёрнутое сообщение Интервью – диалог, оформленный по правилам пунктуации русского языка Статья – большой по объёму текст (от 500 слов), представляющий собой анализ события, ситуации etc, в котором представлены разные точки зрения
Выбор главных новостных сюжетов Цель: отобрать самые освещаемые в СМИ, общезначимые, актуальные и вызывающие интерес пользователей события.
Определение веса сюжета
Вес источника Цитируемость учитывает, насколько часто ссылаются на источник другие новостные ресурсы Оперативность учитывает, насколько часто источник быстро реагирует на события Вес источников автоматически пересчитывается каждую неделю
Топ-10 самых цитируемых агентств (в алфавитном порядке) «Ведомости» «Интерфакс» «ИТАР-ТАСС» «Коммерсант» «Комсомольская правда» Lenta.ru «Первый канал» РБК РИА «Новости» «Российская газета»
Спасибо за внимание! Вопросы? [email protected] Татьяна Исаева, руководитель службы по работе с партнерами Яндекс.Новостей