Адресный поиск

Information Retrieval — информационный поиск

Адресный поиск

Информационный поиск (information retrieval) — процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности, и наука об этом поиске.

Поиск информации представляет собой процесс выявления в некотором множестве документов (текстов) всех тех, которые посвящены указанной теме (предмету), удовлетворяют заранее определенному условию поиска (запросу) или содержат необходимые (соответствующие информационной потребности) факты, сведения, данные.

Процесс поиска включает последовательность операций, направленных на сбор, обработку и предоставление информации.

В общем случае поиск информации состоит из четырех этапов:

  • определение (уточнение) информационной потребности и формулировка информационного запроса;
  • определение совокупности возможных держателей информационных массивов (источников);
  • извлечение информации из выявленных информационных массивов;
  • ознакомление с полученной информацией и оценка результатов поиска.
  • Виды поиска

    Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы.

    Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).

    Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.

    Адресный поиск

    Процесс поиска документов по чисто формальным признакам, указанным в запросе.
    Для осуществления нужны следующие условия:

    1. Наличие у документа точного адреса
    2. Обеспечение строгого порядка расположения документов в запоминающем устройстве или в хранилище системы.

    Адресами документов могут выступать адреса веб-серверов и веб-страниц и элементы библиографической записи, и адреса хранения документов в хранилище.

    Семантический поиск

    Процесс поиска документов по их содержанию.

    Условия:

  • Перевод содержания документов и запросов с естественного языка на информационно-поисковый язык и составление поисковых образов документа и запроса.
  • Составление поискового описания, в котором указывается дополнительное условие поиска.
  • Принципиальная разница между адресным и семантическим поисками состоит в том, что при адресном поиске документ рассматривается как объект с точки зрения формы, а при семантическом поиске — с точки зрения содержания.

    При семантическом поиске находится множество документов без указания адресов.

    В этом принципиальное отличие каталогов и картотек.

    Библиотека — собрание библиографических записей без указания адресов.

    Документальный поиск

    Процесс поиска в хранилище информационно-поисковой системы первичных документов или в базе данных вторичных документов, соответствующих запросу пользователя.

    Два вида документального поиска:

    1. Библиотечный, направленный на нахождение первичных документов.
    2. Библиографический, направленный на нахождение сведений о документах, представленных в виде библиографических записей.

    Фактографический поиск

    Процесс поиска фактов, соответствующих информационному запросу.
    К фактографическим данным относятся сведения, извлеченные из документов, как первичных, так и вторичных и получаемые непосредственно из источников их возникновения.

    Различают два вида:

    1. Документально-фактографический, заключается в поиске в документах фрагментов текста, содержащих факты.
    2. Фактологический (описание фактов), предполагающий создание новых фактографических описаний в процессе поиска путем логической переработки найденной фактографической информации.

    Наука информационного поиска

    Информационный поиск — большая междисциплинарная область науки, стоящая на пересечении когнитивной психологии, информатики, информационного дизайна, лингвистики, семиотики, и библиотечного дела.

    Поиск информации — процесс выявления в массиве информации записей, удовлетворяющих заранее определенному условию поиска или запросу.

    ИП рассматривает поиск информации в документах, поиск самих документов, извлечение метаданных из документов, поиск текста, изображений, видео и звука в локальных реляционных базах данных, в гипертекстовых базах данных таких, как Интернет и локальные интранет-системы.

    Существует некоторая путаница, связанная с понятиями поиска данных, поиска документов, информационного поиска и текстового поиска. Тем не менее, каждое из этих направлений исследования обладает собственными методиками, практическими наработками и литературой.

    В настоящее время ИП — это бурно развивающаяся область науки, популярность которой обусловлена экспоненциальным ростом объемов информации, в частности в сети Интернет. ИП посвящена обширная литература и множество конференций.

    Одной из наиболее известных является TREC, организованной в 1992 Министерством обороны США совместно с Институтом Стандартов и Технологий (NIST) с целью консолидации исследовательского сообщества и развития методик оценки качества ИП.

    Запрос и объект запроса

    Говоря о системах ИП, употребляют термины запрос и объект запроса.

    Запрос — это формализованный способ выражения информационных потребностей пользователем системы. Для выражения информационной потребности используется язык поисковых запросов, синтаксис варьируется от системы к системе. Кроме специального языка запросов, современные поисковые системы позволяют вводить запрос на естественном языке.

    Объект запроса — это информационная сущность, которая хранится в базе автоматизированной системы поиска.

    Несмотря на то, что наиболее распространенным объектом запроса является текстовый документ, не существует никаких принципиальных ограничений. В частности, возможен поиск изображений, музыки и другой мультимедиа информации.

    Процесс занесения объектов поиска в ИПС называется индексацией. Далеко не всегда ИПС хранит точную копию объекта, нередко вместо неё хранится суррогат.

    Задачи информационного поиска

    Центральная задача информационного поиска — помочь пользователю удовлетворить его информационную потребность. Так как описать информационные потребности пользователя технически непросто, они формулируются как некоторый запрос, представляющий из себя набор ключевых слов, характеризующий то, что ищет пользователь.

    Классическая задача ИП, с которой началось развитие этой области, — это поиск документов, удовлетворяющих запросу, в рамках некоторой статической коллекции документов. Но список задач ИП постоянно расширяется и теперь включает:

  • Вопросы моделирования;
  • Классификация документов;
  • Фильтрация документов;
  • Кластеризация документов;
  • Проектирование архитектур поисковых систем и пользовательских интерфейсов;
  • Извлечение информации, в частности аннотирования и реферирования документов;
  • Языки запросов и др.
  • Также, перед движками ИП ставятся некоторые задачи по обработке естественных языков, что включает в себя морфологический анализ, разрешение лексической многозначности и так далее.

    Оценка эффективности информационного поиска

    Существует много способов оценить насколько хорошо документы, найденные ИПС, соответствуют запросу. К сожалению, понятие степени соответствия запроса, или другими словами релевантности, является субъективным понятием, а степень соответствия зависит от конкретного человека, оценивающего результаты выполнения запроса.

    На этом рисунке релевантные точки (rel) находятся слева от прямой, а точки, найденные поисковой системой (retr), находятся в овале. Области красного цвета представляют ошибки поисковой системы.

    Красная область слева — это релевантные точки, не найденные системой (пропуск события), красная область справа — найденные, но нерелевантные точки (ложная тревога). Точность — это пропорция левой зелёной области по отношению к овалу (горизонтальная стрелка).

    Полнота — это пропорция левой зелёной области к области слева от прямой (диагональная стрелка).

    Точность (precision)

    Определяется как отношение числа релевантных документов, найденных ИПС, к общему числу найденных документов:

    ,

    где D_{rel} — это множество релевантных документов в базе, а D_{retr} — множество документов, найденных системой.

    Полнота (recall)

    Отношение числа найденных релевантных документов, к общему числу релевантных документов в базе:

    ,
    где D_{rel} — это множество релевантных документов в базе, а D_{retr} — множество документов, найденных системой.

    Выпадение (fall-out)

    Выпадение характеризует вероятность нахождения нерелевантного ресурса и определяется, как отношение числа найденных нерелевантных документов к общему числу нерелевантных документов в базе:

    ,

    где D_{nrel} — это множество нерелевантных документов в базе, а D_{retr} — множество документов, найденных системой.

    F-мера (F-measure, мера Ван Ризбергена)

    Иногда бывает полезно объединить точность и полноту в одной усреднённой величине.

    Для этой цели среднее арифметическое не подходит, так как, например, поисковой системе достаточно вернуть вообще все документы, чтобы обеспечить равную единице полноту при близкой к нулю точности, и среднее арифметическое точности и полноты будет не меньше 1/2. Среднее гармоническое не обладает этим недостатком, поскольку при большом отличии усредняемых значений приближается к минимальному из них.

    Поэтому хорошей мерой для совместной оценки точности и полноты является F-мера, которая определяется как взвешенное гармоническое среднее точности P и полноты R:

    Источник: Википедия

    Дополнение: курс лекций «Алгоритмы для интернета»

    Источник: http://datascientist.one/information-retrieval/

    Как найти человека по адресу электронной почты?

    Адресный поиск

    Думаю, Вам знакома ситуация, когда Вы в очередной раз просматриваете свою электронную почту и с удивлением обнаруживаете письмо от неизвестного отправителя.

    И не важно, что написано в теме письма: «Вы выиграли миллион» или «Приглашение на собеседование», перед тем, как открыть письмо и отправить ответ, важно правильно идентифицировать человека (или робота), связанного с этой электронной почтой.

    В этой статье я перечислила 6 советов, которые можно использовать, чтобы пробить человека по адресу электронной почты.

    Как найти человека по электронной почте?

    1. Гуглите!

    Самый простой и верный способ узнать о человеке – просто поискать его в Google. Как говорится, жизнь нужно прожить так, чтобы об этом знал Google, но главное чтоб об этом не узнал ! Т.е. копируем e-mail адрес и вставляем его в строку поиска. Наслаждаемся результатами. Если вы не нашли информацию об этом адресе в Google, то перейдите к советам, описанным ниже.

    2. Определяем спам и мошенничество

    Если Вы подозреваете, что отправитель спамщик или мошенник, то об этом могут свидетельствовать следующие признаки:

    • Адрес электронной почты отправителя не соответствует адресу сайта организации. Например, сайт vlada-rykova.com, а письмо отправлено с rykova@site.ru.
    • Письмо отправлено c бесплатного почтового сервиса.
    • Ваше имя либо не используется в теме письма, либо искажено.
    • Письмо содержит информацию о срочном ответе адресату.
    • Письмо содержит ссылку на сайт, на который нужно обязательно перейти. Эта ссылка может быть подделана или похожа на соответствующий адрес какого-либо официального сайта, где Вас просят ввести такую личную информацию, как имя пользователя, пароли и пр.

    3. Используйте , чтобы подтвердить личность человека

    Для того, чтобы зарегистрироваться в социальной сети, нужно оставить свой адрес электронной почты. Таким образом, существует большая вероятность, что вы сможете найти (пробить) владельца e-mail через . Просто скопируйте и вставьте адрес электронной почты отправителя в строке поиска .

    4. Поиск с помощью специальных сервисов

    Помимо есть еще огромное количество социальных сетей, в которых можно проверить e-mail-адрес отправителя, но поверьте, на это Вы потратите очень-очень много времени. Чтоб как-то автоматизировать процесс, предлагаю воспользоваться специальными сервисами. Они помогут вам в поисках на популярных соц. сетях и блогах по имени, адресу электронной почты, никнейму, номеру телефона.

    1. Pipl – зарубежный сервис, поэтому данные по адресам из СНГ ищутся не всегда корректно.

    2. Spokeo – платный сервис. Стоимость полугодовой подписки 3,95 долл. в месяц.

    3. EmailSherlock — бесплатные сервис, который проверяет привязку email к социальным сетям, но и он не всегда корректно ищет.

    4. PeekYou – находит людей из разных соц сетей по имени, email, номеру телефона, местоположению.

    5. Vebidoo – немецкий сервис поиска людей.

    6. Spysee – японский сервис поиска людей (закрылся)

    7. ZabaSearch — американский сервис поиска людей (поиск по номеру телефона или имени).

    8. WhitePages.com — еще один американский сервис поиска людей (ищет по имени, номеру телефона и физическому адресу проживания).

    9. AddressSearch.com — сервис по поиску людей в США. Есть возможность искать только по email или адресу проживания.

    10. CriminalSearches.com — интересный сервис, заточенный на поиск информации о людях в США, которые совершали какие-то преступления (поиск к сожалению только по имени).

    11. FindPeopleSearch — еще один сервис под Америку. Поиск по имени и email. Кроме стандартного функционала Вы также можете отправить им электронное письмо, удалить их информацию и настроить уведомления для получения дополнительной информации о человеке.

    12. MyLife — поиск исключительно по людям из США и только по имени и городу, к тому же, чтоб получить результаты поиска, нужно быть обязательно зарегистрированным пользователем.

    13. BeenVerified — международный платный сервис. Ищет по email, имени, номеру телефона, адресу проживания.

    14. Lullar — поиск человека по имени, email или нику, заточен в первую очередь для поиска людей в социальных сетях: , Google Plus, , , Instagram, Pinteres и др.  Как по мне, то поиск не очень качественный.

    15. Infobel — международный поиск людей по компаниям в которых они работают. Т.е. сначала выбираем страну, потом вводим имя и город, потом получаем информацию, в какой компании работает данный человек. Ну и качество поиска для стран СНГ оставляет желать лучшего.

    16. Yasni.com — очень качественный поиск людей по имени, нику, профессии с русским интерфейсом.

    17. PersonLookUp — неудобный для пользователя интерфейс этого сервиса в целом позволяет искать людей по разным параметрам: имени, адресу, email. Качество поиска также мягко говоря «не очень».

    Также есть специальные расширения для браузеров, которые помогут Вам в поисках людей в социальных сетях по email, например, Rapportive (для Firefox и Chrome). Cервис работает только для Gmail.

    Воспользуйтесь также специальным мобильным приложением для быстрого поиска человека по номеру телефона — Intelius (для Android) и Charlie (для iOS).

    5. Как вычислить электронную почту по IP в email? Узнаем IP-адрес e-mail отправителя

    Каждое электронное письмо содержит в себе информацию, которую не видно на первый взгляд. Это IP-адрес отправителя, по которому Вы можете узнать страну и город, откуда к Вам пришло это письмо, т.е. можно пробить местоположение по почтовому ящику.

    Чтобы найти IP-адрес письма полученного на Mail.ru, следуйте следующему алгоритму:

    1. Откройте письмо отправителя.
    2. Нажмите кнопку «Еще» и в выпадающем списке нажмите «Служебные заголовки».
    3. Воспользовавшись поиском по странице (Ctrl+F) найдите «Received: from». То, что будет в квадратных скобках и есть интересующий нас IP-адрес.

    Если Вы пользуетесь почтовым сервисом от Яндекса, то проделайте следующее:

    1. Открываем письмо отправителя.
    2. Нажимаем на ссылку «Подробнее» и дальше выбираем «Свойства письма».
    3. По аналогии с предыдущим почтовым сервисом ищем «Received: from». В квадратных скобках — IP-адрес отправителя.

    P.S. Сейчас Яндекс сам подтягивает информацию о человеке в почтовый интерфейс. Подробнее можно почитать здесь.

    Для Gmail мануал такой:

    1. Открываем письмо.
    2. Нажимаем в правом верхнем углу на стрелочку и в выпадающем меню выбираем «Показать оригинал».
    3. Последний пункт идентичный 2 предыдущим почтовым сервисам. Ищем «Received: from».

    Узнать IP отправителя на rambler.ru

    1. Открываем письмо.
    2. Нажимаем на кнопку «Другие действия»,  выбираем «Код письма».
    3. Ищем строку: Received: from [134.1.1.0], где вместо 134.1.1.0 будет IP-адрес отправителя.

    Чтобы узнать точное географическое положение полученного IP-адреса, используйте один из сервисов: Speed-Tester.info или 2ip.ru.

    Обращаю внимание, что данные могут быть далеко не точные, особенно, если отправитель пользуется бесплатными почтовыми сервисами. Но такой метод прекрасно работает в b2b-маркетинге, когда Вам нужно знать из какого региона к Вам обратился потенциальный покупатель и сразу предлагать ему товар или услугу в зависимости от локации.

    Источник: https://club.cnews.ru/blogs/entry/import_kak_najti_cheloveka_po_adresu_elektronnoj_pochty__4c80

    Поделиться:
    Нет комментариев

      Добавить комментарий

      Ваш e-mail не будет опубликован. Все поля обязательны для заполнения.