Курс "Подходи за обработка на естествен език", Зимен семестър
2015-16
Лектор Галя Ангелова, асистент Ивелина Николова телефон 9796607, е-мейл galia[AT]lml[dot]bas[dot]bg и iva[AT]lml[dot]bas[dot]bg .
Офис: Институт по информационни и комуникационни технологии на БАН, ул. "Акад. Г. Бончев" Блок 25А, стая 102. Адресът (улица, номер) може да се намери в http://www.bgmaps.com/map/sofia
Занятията се провеждат в ИИКТ-БАН, блок 25А, сряда от 18 часа, зала 2 в сутерена.
Повече детайли за съдържанието на курса и начина на оценяване можете да прочетете тук.
Лекция 1, 07/10: Уводна презентация и по-цялостен уводен текст, идея за съдържание на курса ( 1, 2) и обща илюстрация за работа на подходите, базирани върху правила.
Лекция 2, 14/10: Морфология. Кодиране на морфологични речници. Компактно кодиране чрез крайни автомати. Илюстрации за използването на крайните автомати при моделиране на морфологични явления: склонение на правилни немски глаголи и задача за унгарски именни фрази с диаграмни представяния.
За по-задълбочено запознаване: Компютърна морфология от Елена Паскалева.
Практикум 1 с Ивелина Николова, 21/10: упражнения по разделяне на текста на словоформи, морфологичен анализ, автоматично разпознаване на частите на речта, GATE, пре-процесинг, наименовани единици (Named Entities).
Лекция 3, 28/10: Автоматично разпознаване на частите на речта (POS-tagging, Part of Speech tagging). Примерни задачи за ТЕСТ 1: условия и решения.
Лекция 4, 4/11: Синтактичен анализ и ТЕСТ 1: 20:15-21:30 часа.
Практикум 2 с Ивелина Николова, 11/11: носете си компютри с инсталиран GATE
Практикум 3 с Ивелина Николова, 18/11
Лекция 5, 25/11: Логически форми и таблица с роли.
За по-задълбочено запознаване със синтактични структури в българския език: Формална граматика на българския език от Петя Осенова и Кирил Симов.
Подготовка за Тест 2: Примерни задачи за тест 2 и решения.
Лекция 6, 9/12: Дискурс
Практикум 4 с Ивелина Николова, 11/12
Лекция 7, 16/12: продължение за дискурс и тест 2 от 20:00 часа
Лекция 8, 23/12: генерация
Лекция 9, 6/01: устойчиви словосъчетания. Демонстрации на Светла Бойчева - презентация, обърнете внимание на екстрактора слайд 33
Лекция 10, 13/01: разрешаване на многозначността на значенията, демонстрация на подход за идентифициране на значението при анотация на изображения (презентация). Лекция 11: обработка на текста при извличане на документи със статистически методи.
Сайт със свободно-достъпни бази тип WordNet вкл. българския BulTreeBank Wordnet (BTB-WN): http://compling.hss.ntu.edu.sg/omw/
Български речник с 10хил. най-чести думи от вестници (2001г). - изтегляне от тук. Над него работи анализаторът, разгледан в Домашно 1. Ето по-подробен списък на използваните маркери за граматическите категории в речника.
Други приложения, които могат да ви бъдат полезни при разработка на проект: разгледайте програмата AntConc за правене на конкорданс на сайта http://www.laurenceanthony.net/software.html
Среда за question-answering, която споменахме: http://www.ask.com/
Резултати от тестовете досега: изтегли тук.
Примерни задачи за изпита, върху лекциите по /a/ извличане на подобни документи по модела на векторните пространства (задача 1) и /b/ търсене на колокации (задача 2). За първата задача е добре да си преговорите каква е разликата между морфологичен анализ, POS-тагиране и WSD (автоматично разпознаване на значенията).
Лекция 11, 20/01: обзорни схеми 1 и 2. Една илюстрация.
Поправителен изпит: 29 септември 2016, в зала 218 на ИИКТ-БАН, блок 25А, от 10 часа.