Компьютерра - Компьютерра PDA N138 (01.10.2011-07.10.2011)
Проблема была в том, что традиционные методы оценки не очень хорошо работают с такими запросами. Качество поиска оценивается рядом метрик, цифр. Есть много разных методик, но большинство их них не учитывают проблемы таких неоднозначных запросов – если все десять результатов примерно про одно и то же, это считается хорошо. Нужно было придумать способ измерять насущность этой проблемы и сделать такое ранжирование, которое бы с ней справлялось. Чтобы в выдаче были результаты и про то и про это, чтобы люди, ищущие разные вещи, находили для себя то, что нужно, и получали полный обзор по этому запросу. Так и появился «Спектр».
- Насколько я понимаю, полный обзор – это 100 страниц результатов. Как человеку ориентироваться?
- Все равно нужно каким-то образом вместить наиболее актуальную информацию в первый десяток результатов. Без некоторой потери смысла не обойтись. Мы работаем над тем, чтобы смысл терялся как можно меньше.
- Как давно задействована технология?
- Она запущена в конце прошлого года.
- И как вы оцениваете ее результаты на данный момент?
- Мы измеряем количество людей, которые не удовлетворены результатами поиска. Как мы это понимаем? Бывает, что человек задал свой запрос, увидел какие-то результаты, посмотрел на них, почитал и никуда не кликнул, а вместо этого закрыл браузер или задал другой запрос с целью все-таки что-то найти. Если такое происходит, то обычно это плохо. Число таких запросов с введением нового ранжирования уменьшилось.
- А какие-то средства противодействия манипуляциям результатами поиска задействованы?
- Да, они, конечно, нужны – более того, они обязательны. "Яндексу" есть на ком тренироваться, как отслеживать накрутки и так далее. На практике накрутками занимаются, чтобы подвинуть в выдаче не какой-то специфический результат, а свой собственный магазин, свой сайт. Если научиться такие стандартные накрутки отлавливать и с ними бороться – а мы это делаем постоянно – то те же методы могут быть использованы для более экзотических случаев.
На самом деле, за этим стоит некая этическая концепция. Хорошо все, чем хорошо пользоваться. Если люди ищут какой-то натуральный феномен, и результат сам по себе, действительно, набирает популярность, то мы не судим, хорошо это или плохо – нашим пользователям это интересно, значит, нужно найти и показать. Но мы должны бороться с накрутками, когда кто-то при помощи ботов или просто ручного труда низкооплачиваемых «роботоподобных» людей делает вид, что этот результат набирает популярность. Вот это то, с чем нужно бороться, и нужно отличать друг от друга эти вещи. Это чисто техническая задача.
- То есть даже "ботоподобных" людей можно отбивать программой-антиботом?
- Конечно. Они же по инструкции работают, все равно у них есть неестественные паттерны в поведении.
- Вот вы говорите про стандартные случаи накрутки, а нестандартные в техническом плане, что могут из себя представлять?
- В техническом? Ну, я, во-первых, сейчас не смогу ничего реалистичного предположить, потому что если мы об этом знаем, то оно уже не является чем-то нестандартным. Во-вторых, даже если я сейчас что-нибудь такое придумаю, то не хочется подавать идеи. Но, например, можно как-то более "материально" использовать таких "роботоподобных" людей. Или можно начать что-то вроде вирусной рекламы, которая будет рекламировать не товар, не сайт, а что-то другое. Но мы все равно научимся с этим справляться, как уже справились с другим хорошим примером нестандартной концепции – линк-бомбингом, когда на сайт ссылаются несколько разных людей по ссылкам, содержащим всякие нехорошие слова. Затем в социальных сетях появляются сообщения: смотрите, по этим нехорошим словам находится вот этот сайт, прикольно! И все начинают ретвитить такие ссылки или кидать их друг другу.
- Как вы оцениваете, скажем так, конкурентные преимущества "Яндекса", по сравнению с другими поисковиками, действующими в России? Правда, насколько я понимаю, их осталось совсем немного...
- В России основных игроков сейчас три: есть "Яндекс", есть русский Google и есть Mail.ru. По крайней мере с точки зрения бренда.
Насколько большим конкурентным преимуществом является качество поиска? Это не так очевидно, как запуск, условно говоря, новых сервисов, но есть точная корреляция между долей и качеством поиска, и она вполне понятна, потому что если человек задает запрос в поисковике и чего-то не находит, он легко ищет в другом.
Большинство людей знает, что поисковики бывают разные, и очень многие пользуются браузерами, где можно легко переключаться между разными поисковиками. И если вы хороший ответ не нашли, а конкурент нашел, то это серьёзный сигнал для пользователя к более частому переключению. Поэтому любое улучшение ранжирования помогает держать марку.
Сейчас вообще уже нет таких улучшений, которые бы сразу и однозначно поставили поисковик на первое место. Разве что кто-то создаст искусственный интеллект, который будет отвечать на все запросы. Поисковики почти все примерно одинаково хороши. Основная борьба сейчас разворачивается в отношении отдельных классов запросов, которые, может быть, не так часто встречаются, но зато очень важны для людей. Например, запросы о том, что только что случилось. Поисковики пытаются достичь такого уровня, чтобы отвечать в течение следующих пяти минут после события. Условно говоря, если что-то где-то взорвалось, в идеале нужно, чтобы через пять минут в поиске по запросу «взрыв» уже было что-то релевантное, хоть какие-то записи из Твиттера, например.
- Ну, это означает, что "паук" должен очень оперативно работать.
- Да, да, конечно. Но не только. Это означает изменения в ранжировании, потому что понятно, что у записей, посвященных тому, что только что появилось, нет никакого ТИЦ, никаких ссылок, ничего. Но, тем не менее, нужно понять, что это запись о чем-то важном. Такой подход требует изменений в антиспамерских инструментах, потому что если мы начинаем показывать больше нового, только появившегося, очевидно, что спамеры это поймут и подхватят. Роботу не сложно в час создать миллион страничек со словами "взрыв там", "взрыв сям", "авария там" на любой географический объект.
- Кстати, не было ли таких случаев, когда подкладывалась именно такая информационная бомба?
- Это сделать очень сложно. Фактически, способ, которым можно воздействовать на поисковик извне, автоматически должен воздействовать и на весь интернет тоже. То есть, грубо говоря, очень трудно "придумать" новость таким способом, чтобы она стала известна поисковику, но при этом не стала моментально известна людям. Вполне возможно, что взрыв в блогосфере иногда имеет, в том числе, и такую цель - привлечь людей дополнительно на новостной сайт. Пусть я фантазирую, я не уверен, что такое реально случалось, но вариант выгодный: пусть какая-то конкретная новость потом окажется фальшивкой, зато людей удалось завлечь на сайт, на котором могут быть еще какие-то завлекалочки...
Дмитрий Вибе: "Душа" обязана трудиться
Автор: Дмитрий Вибе
Опубликовано 07 октября 2011 года
Речь идёт о первых научных наблюдениях на интерферометре субмиллиметрового и миллиметрового диапазона ALMA. Сейчас модно подбирать аббревиатуры для проектов и инструментов так, чтобы в них помимо сухой расшифровки был ещё и скрытый смысл. ALMA - Atacama Large Millimeter Array - не исключение. Слово это переводится с испанского как "душа". Почему с испанского? Потому что интерферометр ALMA находится в Чили, точнее, в пустыне Атакама, одном из самых сухих мест на Земле. Почему "душа"? Да кто его знает. Чтоб было красиво.
Фото: ALMA (ESO/NAOJ/NRAO)
Телескоп ALMA станет первым инструментом, позволяющим получать качественные изображения небесных объектов в диапазоне длин волн от нескольких сотен микрон до нескольких миллиметров и с миллисекундным угловым разрешением. Столь высокое угловое разрешение будет достигнуто при помощи интерферометрических методов - путем сложения сигналов, полученных на нескольких десятках независимых антенн.
Теоретическое угловое разрешение одиночного телескопа (минимальное угловое расстояние между двумя точечными источниками, при котором они всё ещё не сливаются друг с другом) примерно равно отношению длины волны к диаметру объектива. Оно связано с волновыми свойствами света: из-за дифракции на краях объектива изображение точечного источника размазывается в пятно. Чем больше объектив, тем меньше размер этого пятна. Например, у российского шестиметрового телескопа БТА-6 теоретическое разрешение в видимом диапазоне равно 0.02 угловой секунды. Но теория, как известно, суха, и древо жизни всегда вносит в неё коррективы: из-за атмосферной турбулентности даже в местах с наилучшим астроклиматом разрешение в оптическом диапазоне не превосходит нескольких десятых долей угловой секунды. Поэтому в оптическом диапазоне увеличение размера объектива (в современном телескопе это практически всегда вогнутое зеркало) позволяет повысить разрешающую силу только для заатмосферных телескопов.
Откройте для себя мир чтения на siteknig.com - месте, где каждая книга оживает прямо в браузере. Здесь вас уже ждёт произведение Компьютерра - Компьютерра PDA N138 (01.10.2011-07.10.2011), относящееся к жанру Прочая околокомпьютерная литература. Никаких регистраций, никаких преград - только вы и история, доступная в полном формате. Наш литературный портал создан для тех, кто любит комфорт: хотите читать с телефона - пожалуйста; предпочитаете ноутбук - идеально! Все книги открываются моментально и представлены полностью, без сокращений и скрытых страниц. Каталог жанров поможет вам быстро найти что-то по настроению: увлекательный роман, динамичное фэнтези, глубокую классику или лёгкое чтение перед сном. Мы ежедневно расширяем библиотеку, добавляя новые произведения, чтобы вам всегда было что открыть "на потом". Сегодня на siteknig.com доступно более 200000 книг - и каждая готова стать вашей новой любимой. Просто выбирайте, открывайте и наслаждайтесь чтением там, где вам удобно.


