Обсуждение участника:Odekova

Занятие 28.01.2010 г.

Тема № 2 Обработка эмпирической информации

Лекция № 2 Основы обработки эмпирической информации 1. Способы обработки первичной информации. 2. Вторичная обработка первичной эмпирической информации.

1. Способы обработки первичной информации.

СТРАТЕГИИ ПОЛУЧЕНИЯ ЗНАНИЙ Существует несколько стратегий получения знаний. Наиболее распространенные: • приобретение; • извлечение; • формирование. Приобретение знаний - это способ автоматизированного построения базы знаний посредством диалога эксперта и специальной программы (при этом структура знаний заранее закладывается в программу). Эта стратегия требует существенной предварительной проработки предметной области. Системы приобретения знаний действительно приобретают готовые фрагменты знаний в соответствии со структурами, заложенными разработчиками систем. Большинство этих инструментальных средств специально ориентировано на конкретные экспертные системы с жестко обозначенной предметной областью и моделью представления знаний, т.е. не являются универсальными. Термин извлечение знаний касается непосредственного живого контакта исследователя и источника знаний. Термин формирование знаний традиционно закрепился за чрезвычайно перспективной и активно развивающейся областью инженерии знаний, которая занимается разработкой моделей, методов и алгоритмов анализа данных для получения знаний и обучения. Эта область включает индуктивные модели формирования гипотез на основе обучающих выборок, обучение по аналогии и другие методы. Таким образом, можно выделить три стратегии проведения стадии получения знаний при разработке экспертных систем. На современном этапе разработки экспертных систем в нашей стране стратегия извлечения знаний, по-видимому, является наиболее актуальной, поскольку промышленных систем приобретения и формирования знаний на отечественном рынке программных средств практически нет. Извлечение знаний — это процедура взаимодействия эксперта с источником знаний, в результате которой становятся явными процесс рассуждений специалистов при принятии решения и структура их представлений о предметной области.

ТЕКСТОЛОГИЧЕСКИЕ МЕТОДЫ ИЗВЛЕЧЕНИЯ ДАННЫХ

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний. Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вторичной структуре (смысловой структуре или макроструктуре текста), настраиваемой над естественным текстом. При этом можно выделить две такие смысловые структуры: M1 смысл, который пытался заложить автор, это его модель мира, и М2 смысл, который постигает читатель, в данном случае инженер по знаниям в процессе интерпретации I. При этом Т — это словесное одеяние M1, т.е. результат вербализации V. Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих M1 и М2, из-за того, что M1 образуется за счет совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т за счет привлечения всей совокупности научного и человеческого багажа читателя.

Эксперт Инженер по знаниям Рис. 2. Извлечение знаний из текстов Встает задача выяснить, за счет чего можно достичь максимальной адекватности MI и М2, помня о том, что понимание всегда относительно. Рассмотрим подробнее, какие источники питают модель MI и создают текст Т. Можно указать два компонента любого научного текста. Это первичный материал наблюдений и система научных понятий в момент создания текста. В дополнение к этому, на наш взгляд, помимо объективных данных экспериментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места", или "вода". Кроме того, любой научный текст содержит заимствования из других источников (статей, монографий) и т.д. При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компоненты для выделения истинно значимых для реализации базы знаний фрагментов. Сложность интерпретации научных и специальных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст. Основными моментами понимания текста являются: • выдвижение предварительной гипотезы о смысле всего текста (предугадывание); • определение значения непонятных слов (т.е. специальной терминологии); • возникновение общей гипотезы о содержании текста (о знаниях); • уточнение значения терминов и интерпретация отдельных фрагментов текста под вли¬янием общей гипотезы (от целого к частям); • формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний; • корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому); • принятие основной гипотезы, т.е. формирование М2. Следует отметить наличие как дедуктивной (от целого к частям), так и индуктивной (от частей к целому) составляющей процесса понимания. Центральными моментами процесса 1 являются шаги формирования смысловой структуры или выделения "опорных", или ключевых, слов, а также заключительное схватывание "смысловых вех" в единую семантическую структуру. В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т.д.) или их сочета¬ние. Существует гипотеза лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, т.е. отражают его тематическую структуру. Подготовкой к прочтению специальных текстов является выбор совместно с экспертами некоторого "базового" списка литературы, который постепенно введет аналитика в предметную область. В этом списке могут быть учебники для начинающих, главы и фрагменты из монографий, популярные издания. Только после ознакомления с "базовым" списком це¬лесообразно приступать к чтению специальных текстов. Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета, и поэтому макроструктура такого текста будет, наверное, более значима, чем структура текста какой-нибудь специальной статьи. Анализ методик затруднен как раз сжатостью изложения и практическим отсутствием комментариев, т.е. фоновых знаний, облегчающих понимание для неспециалистов. Поэтому можно рекомендовать для практической работы комбинацию перечисленных методов. В заключение предложим одну из возможных практических методик анализа текстов с целью извлечения и структурирования знаний. • Составление "базового" списка литературы для ознакомления с предметной областью и чтения по списку. Выбор текста для извлечения знаний. Первое знакомство с текстом (беглое прочтение). Для определения значения незнакомых слов — консультации со специалистами или привлечение справочной литературы. Формирование первой гипотезы о структуре текста. Внимательное прочтение текста с выписыванием ключевых слов и выражений, т.е. выделение "смысловых вех" (компрессия текста). Определение связей между ключевыми словами, разработка макроструктуры текста в форме графа или "сжатого" текста (реферата). Формирование поля знаний на основании структуры текста.

2. Вторичная обработка первичной эмпирической информации. СТРУКТУРИРОВАНИЕ ЗНАНИИ • Концептуальная структура предметной области • Функциональная структура предметной области • Формализация и программная реализация базы знаний КОНЦЕПТУАЛЬНАЯ СТРУКТУРА ПРЕДМЕТНОЙ ОБЛАСТИ Одна из наиболее творческих процедур при построении экспертных систем — процедура концептуального анализа полученных знаний или структурирование. Структурирование — это процесс создания полуформализованного описания предметной области. Такое полуформализованное описание называется полем знаний. Обычно оно создается в графической форме. Поле знаний Pz можно описать следующим образом: Pz = <Sk,Sf>, где Sk — концептуальная структура предметной области; Sf — функциональная структура предметной области. Концептуальная структура, или модель предметной области, служит для описания ее объектов и отношений между ними, т.е. можно сказать, что концептуальная модель Sk представляет собой следующее: Sk = <A,R>, где А — множество объектов предметной области; R — множество отношений, связывающих объекты. Множество отношений представляет собой связи между объектами. При помощи этих отношений инженер по знаниям фиксирует концептуальное устройство предметной области, иерархию понятий, свойства и структуру объектов. Разработка концептуальной структуры имеет самостоятельное значение, не зависимое от конечной цели — разработки экспертных систем. Эта структура может служить для целей обучения, повышения квалификации, для прогнозирования, объяснения, реструктурирования и т.п. Основными из них являются АКО, A-part-of, Has-attribute, Value и др. • АКО (A-Kind-OF) — "это есть", например, [Глава] -> (АКО) -> [КНИГИ]. АКО отражает родовидовые отношения и иерархию понятий предметной области. Обязательно при¬сутствует в любой концептуальной структуре. • A-part-of— "часть от", например, [процессор] —> (A-part-of) —> [компьютер]. Это отно¬шение служит для отражения физической структуры и декомпозиции сложных объектов на составляющие. • Has-attribute — "имеет свойство", например, [память] —> (Has-attribute) —> [объем памяти]. • Value — "значение", например, [объем памяти] —> (Value) —> [16 Мбайт]. Поле знаний может напоминать семантическую сеть, но оно менее формализовано. Если в сети жестко оговорены возможные виды связей, то в поле знаний они произвольны. Краткий алгоритм формирования концептуальной структуры. Шаг1. Определить все результирующие понятия, или выходы системы. Это может быть набор диагнозов, рекомендаций, советов системы. Шаг2. Определить все входные понятия, или факторы, от которых зависит результат работы системы. ШагЗ. Установить промежуточные понятия, участвующие в рассуждениях экспертов, если они есть. Шаг4. Для всех понятий найти обобщающие и уточняющие понятия, т.е. установить иерархии объектов. ШагЗ. Для объектов, участвующих в рассуждениях, определить свойства и их значения. Шагб. Попытаться определить другие связи, и все в целом отразить графически. Шаг7. Убрать лишние связи, объекты, обсудить структуру с экспертом, дополнить, если надо, с возвратом к шагам 1 - 6. ФУНКЦИОНАЛЬНАЯ СТРУКТУРА ПРЕДМЕТНОЙ ОБЛАСТИ Функциональная структура отражает модель рассуждений и принятия решений, которой пользуется эксперт при решении задачи. Обычно функциональная структура представляется в виде каузальных отношений и может быть позднее формализована в виде коротких правил "если — то" (В виде семантических сетей. Представить функциональную структуру можно в виде таблицы, графа или предложений на естественном языке. Наглядные формы предпочтительны. Часто в моделях рассуждений присутствуют нечеткие понятия — "часто", "много", "очень", "высокий", "большой" и др. Для их представления базе знаний используется так называемая нечеткая логика, автор которой — Л.Заде, предложил простой формализм для таких понятий. Этот формализм использует понятие нечеткой функции принадлежности, которая отражает численно на шкале [0, 10] или [О, 1] степень уверенности эксперта в том, что конкретное значение можно отнести к данному нечеткому понятию. Также степени уверенности используются при множественных рекомендациях. Например, эксперт советует "покупать акции компании X со степенью уверенности 9, а компании Y со степенью уверенности 6". ФОРМАЛИЗАЦИЯ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ БАЗЫ ЗНАНИЙ Сформировав поле знаний в виде концептуальной и функциональной структур, инженер по знаниям вместе с программистом подыскивают подходящий язык представления знаний, который, с одной стороны, позволит выразить все особенности знаний предметной области без искажения структуры поля знаний, а с другой, — будет иметь эффективную программную реализацию в виде транслятора или "оболочки" .Odekova 06:25, 28 января 2010 (UTC) (подробнее ↗)Odekova 06:28, 28 января 2010 (UTC) (подробнее ↗)Ответить