Участник:Olga gusareva
виды поиска:
Полнотекстовый поиск — поиск по всему содержимому документа. Пример полнотекстового поиска — любой интернет-поисковик, например www.yandex.ru, www.google.com. Как правило, полнотекстовый поиск для ускорения поиска использует предварительно построенные индексы. Наиболее распространенной технологией для индексов полнотекстового поиска являются инвертированные индексы. Поиск по метаданным — это поиск по неким атрибутам документа, поддерживаемым системой — название документа, дата создания, размер, автор и т. д. Пример поиска по реквизитам — диалог поиска в файловой системе (например, MS Windows).
Поиск изображений — поиск по содержанию изображения. Поисковая система распознает содержание фотографии (загружена пользователем или добавлен URL изображения). В результатах поиска пользователь получает похожие изображения. Так работают поисковые системы: Polar Rose, Picollator и др.
поисковый индекс - вспомогательная для поиска в некотором хранилище структура данных, обеспечивающая сублинейное время поиска в этом хранилище.
По данным компании Net Applications в апреле 2010 года использовали 3,45 % пользователей поисковую систему BAIDU.
Отечественными поисковыми системами являются: Яндекс, Рамблер или Nigma.
Знаки "+" и "-". Если вы хотите, чтобы слова из запроса обязательно были найдены, поставьте перед каждым из них "+". Если вы хотите исключить какие-либо слова из результата поиска, поставьте перед каждым из них "-". Например, запрос 'частные объявления продажа велосипедов', выдаст много ссылок на сайты с разнообразными частными объявлениями. А запрос с "+" 'частные объявления продажа +велосипедов' покажет объявления о продаже именно велосипедов. Если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос 'путеводитель по парижу -агентство -тур' Обратите внимание на знак "-". Это именно минус, а не тире и не дефис. Знак "-" надо писать через пробел от предыдущего и слитно с последующим словом, вот так: 'рак -гороскоп'. Если написать 'рак-гороскоп' или 'рак - гороскоп', то знак "-" будет проигнорирован.
Эмпирической(первичной) информацией для лингвиста является текст, либо другие исходные данные "изображение структуры текста", "алфавит символов и правила образования и преобразования фраз".
Текст (письменный и устный) - первичная данность всего гуманитарно-филологического мышления.
Текст может быть представлен в виде:
книги,
журнального текста
электронного (оцифрованного) текста.
Предварительным этапом анализа является нормализация текста (графематический анализ), приводящий исходный текст к каноническому виду. Являясь определенного рода текстовым препроцессором, графематический анализатор решает следующие задачи: удаление нетекстовых символов, разделение цепочки символов на слова, выделение цифр, чисел, дат, неизменяемых оборотов и сокращений, деление на предложения и абзацы. Результатом анализа является линейная последовательность слов, включая служебные (знаки препинания, метки конца предложения).
Полученная в ходе предварительного отбора информация называется первичной. Она не позволяет установить те зависимости, которые кладутся в основу лингвистических выводов.
Поэтому эта информация нуждается в трансформировании во вторичную информацию - эта информация может быть представленную в виде каких либо показателей или даже таблиц и графиков.
Для использования информационных технологий желательно печатный текст перевести в цифровой формат.
После этого возможно провести 'Графематический анализ. При этом возможно использование компьютерных программ.
Графематический анализ (далее графематика) - достаточно простая программа, выполняющая первые предварительные действия над текстом. На вход графематике подается текст в кодировке (например Windows,) на выходе программой строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Программа выделяет некоторые аббревиатуры, имена с инициалами, даты и пр. Кроме деления текста на слова, графематика разбивает текст на абзацы и предложения (макросинтаксический анализ).