PPt4Web Хостинг презентаций

Главная / Информатика / Извлечение информации из текстов : портрет направления
X Код для использования на сайте:

Скопируйте этот код и вставьте его на свой сайт

X

Чтобы скачать данную презентацию, порекомендуйте, пожалуйста, её своим друзьям в любой соц. сети.

После чего скачивание начнётся автоматически!

Кнопки:

Презентация на тему: Извлечение информации из текстов : портрет направления


Скачать эту презентацию

Презентация на тему: Извлечение информации из текстов : портрет направления


Скачать эту презентацию

№ слайда 1 ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ:ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена ИгоревнаМГ
Описание слайда:

ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ:ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена ИгоревнаМГУ им. М.В. Ломоносова, Факультет ВМиК[email protected] 

№ слайда 2 СОДЕРЖАНИЕ Особенности задачиВыделяемые сущностиТехнология решения: шаблоныПроек
Описание слайда:

СОДЕРЖАНИЕ Особенности задачиВыделяемые сущностиТехнология решения: шаблоныПроект ONTOS и система GATE Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

№ слайда 3 ОСОБЕННОСТИ ЗАДАЧИ Information ExtractionСпецифика задачи – распознавание и извл
Описание слайда:

ОСОБЕННОСТИ ЗАДАЧИ Information ExtractionСпецифика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информацииПриложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

№ слайда 4 ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности:Имена персоналийГеографические названия
Описание слайда:

ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности:Имена персоналийГеографические названияНазвания фирм и организацийАдресаДатыОтношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г.связанные с ними события и фактыполучение кредита, слияние компаний…

№ слайда 5 ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный синтаксический анализ : неэфффективность и многовар
Описание слайда:

ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N “работает” в NP (Noun Phrase)Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик)Грамматические конструкции: именные и др. группы

№ слайда 6 ПРОЕКТ ONTOS АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инстр
Описание слайда:

ПРОЕКТ ONTOS АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация

№ слайда 7 СИСТЕМА GATE КАК ИНСТРУМЕНТ Набор стандартных программных компонент (лингвистиче
Описание слайда:

СИСТЕМА GATE КАК ИНСТРУМЕНТ Набор стандартных программных компонент (лингвистических процессоров) для обработки текстаПредставление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текстаГрафическая среда для сборки приложения из компонент

№ слайда 8 GATE: ПРИМЕРЫ АННОТАЦИЙ Сущность «Angela Merkel»
Описание слайда:

GATE: ПРИМЕРЫ АННОТАЦИЙ Сущность «Angela Merkel»

№ слайда 9 GATE : КОМПОНЕНТЫ Цепочка обработки текста в системе GATE:Tokeniser - разбиение
Описание слайда:

GATE : КОМПОНЕНТЫ Цепочка обработки текста в системе GATE:Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.)Sentence Splitter - разбиение текста на предложенияPart of Speech Tagger - определение части речи слов на основании словаря и правилSemantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правилOrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

№ слайда 10 GATE : ШАБЛОНЫ И ПРАВИЛА Язык JAPE - запись правил преобразования аннотацийШабло
Описание слайда:

GATE : ШАБЛОНЫ И ПРАВИЛА Язык JAPE - запись правил преобразования аннотацийШаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падежеПравила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

№ слайда 11 ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют
Описание слайда:

ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачкиПриложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусовЧасть приложений – обработка отдельного текста, но не коллекции

№ слайда 12 ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные (некомпозиционные)
Описание слайда:

ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина словаКонвенциональность научно-технических терминов необходимость их определения в тексте: Под прерыванием понимается сигнал…Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

№ слайда 13 МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических критериев:Стати
Описание слайда:

МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических критериев:Статистические критерии Например, функция упорядочивания по статистике:  log2 |a| * freq (a), если a не вложено, иначе C-Value(a) = log2 |a| * (freq (a) – P(Ta)-1 * bTa freq (b))где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

№ слайда 14 МЕТОДЫ РАСПОЗНАВАНИЯ:ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) об
Описание слайда:

МЕТОДЫ РАСПОЗНАВАНИЯ:ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег)Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

№ слайда 15 РАСПОЗНАВАНИЕ ТЕРМИНОВ:ТЕКСТОВЫЕ ВАРИАНТЫ При использовании терминов в тексте он
Описание слайда:

РАСПОЗНАВАНИЕ ТЕРМИНОВ:ТЕКСТОВЫЕ ВАРИАНТЫ При использовании терминов в тексте они могут образовывать варианты: Орфографические варианты: браузер - броузерМорфоварианты: спецсимвол – спецзнакЛексико-синтаксические варианты: механическое напряжение - напряжение дисковый контроллер – контроллер диска Варианты сокращений: ЦП, авост В словаре представлены далеко не все варианты терминов, их необходимо распознвать

№ слайда 16 ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР
Описание слайда:

ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

№ слайда 17 РАСПОЗНАВАНИЕ ТЕРМИНОВ:СОЕДИНЕНИЯ ТЕРМИНОВ Соединения нескольких терминологическ
Описание слайда:

РАСПОЗНАВАНИЕ ТЕРМИНОВ:СОЕДИНЕНИЯ ТЕРМИНОВ Соединения нескольких терминологических словосочетаний:Бессоюзные соединения, с разрывом и без разрыва термина: разрядность внутренних регистров – разрядность регистра, внутренний регистрСоединения с союзом: шинам адреса, данных и управления – шина адреса, шина данных, шина управленияСредство распознавания - лингвистические шаблоны

№ слайда 18 ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-с
Описание слайда:

ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова:часть речи (A, N, V, Pa и т.д.) – Aиндекс – A1 A2 Nлексему – A<важный>морфологические характеристики (имя=значение) – A<важный; case=nom, gen=fem>Грамматическое согласование элементов шаблона: A<тяжелый> N <A.gen=N.gen, A.num=N.num, A.case=N.case> Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

№ слайда 19 ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ Элемент-словоИмя шаблонаЭкземпляр шаблонаУсловия
Описание слайда:

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ Элемент-словоИмя шаблонаЭкземпляр шаблонаУсловия согласованияАльтернативы |Повторение {}Опциональное вхождение []

№ слайда 20 LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: A N1 { N2 } (A=N1) реак
Описание слайда:

LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: A N1 { N2 <case=gen>} (A=N1) реактивная сила, немаркированный квантор общностиШаблон типичной фразы-определения новых терминов: NP1<c=acc> ["мы"] "назовем" NP2<c=ins> <NP1.n = NP2.n> Указанную операцию назовем операцией поиска примеровШаблон образования терминологических вариантов: N1 N2<c=gen> "," N3<c=gen> {"и"|"или"} N4<c=gen> #N1 N2<c=gen> , N1 N3<c=gen> , N1 N4<c=gen> шинам адреса, данных и управления – шина адреса, шина данных, шина управления

№ слайда 21 ЗАКЛЮЧЕНИЕ В основном – извлечение на основе правил (rule-based), все чаще - маш
Описание слайда:

ЗАКЛЮЧЕНИЕ В основном – извлечение на основе правил (rule-based), все чаще - машинное обучениеТочность и полнота извлечения зависят от набора шаблоновзависят друг от другаверхняя граница - до 80-90 %Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстовобычно в рамках коммерческих компанийСПАСИБО ЗА ВНИМАНИЕ!

Скачать эту презентацию

Презентации по предмету
Презентации из категории
Лучшее на fresher.ru