Nlp: технологическая база



бет1/4
Дата25.08.2020
өлшемі2.37 Mb.
түріДоклад
  1   2   3   4

NLP: технологическая база


А.С. НАРИНЬЯНИ

ЗАО «ИнтеллиТек», Москва narin07@mailru



Ключевые слова: Обработка текста, Семантика, Прагматика, Тезаурус, Онтология, технологическая база

Доклад продолжает тему, начатую в [1,2] и посвященную роли Тезауруса и Онтологии в системах обработки текста и возможности их соотнесения как компонентов интегрированного комплекса ТЕОН. В настоящем докладе уточняется предложенная в [2] схема технологической цепочки для ограниченной области приложения на основе представительного массива текстов.

1. Предисловие

1.1. В докладе представлена концепция технологической базы, ориентированной на поддержку достаточно широкого спектра систем обработки текстов на естественном языке. Она комбинирует использующие грамматики традиционные методы и статистический подход, получивший развитие последние десять – пятнадцать лет. Такой симбиоз этих двух, часто противопоставляемых, подходов, кажется намного более продуктивным, чем каждый из них в отдельности.

Важными составляющими рассматриваемой технологической базы являются такие активно разрабатываемые компоненты как Онтология и Тезаурус, которым были посвящены две предыдущие публикации автора [1, 2] В них была предпринята попытка установить взаимоотношение этих терминов, объединив их в тандем под названием ТЕОН, а также наметить схему технологических уровней, поддерживающих процесс создания ТЕОН.

За прошедший со времени этих публикаций период нашим коллективом был осуществлен целый комплекс работ, которые позволяют уточнить и обобщить предложенную в [2] схему. В этом докладе я хотел бы ее обсудить как технологическую базу, формируемую для спектра приложений на основе представительного массива текстов.

В связи с недостаточной четкостью распространенных определений понятий Тезаурус и Онтология, начнем с напоминания их взаимосвязи в [2].


1.2. Тезаурус – это достаточно полный объем лексики, организованной по тематическому (смысловому) принципу с отражением определенного набора базовых семантических отношений.

В случае, когда речь идет о Тезаурусе всего (русского, английского,…) языка, базовый набор семантических категорий ограничивается несколькими десятками понятий и отношений.



В то же время требования приложений в области обработки текста непрерывно растут. И поскольку основная их часть ориентирована на конкретные, часто очень ограниченные практические задачи, это ставит проблему формирования Тезаурусов узкой тематики.

Такой специализированный Тезаурус входит во все более тесный контакт с семантикой и прагматикой соответствующей Предметной области (ПО). А они, в свою очередь, находятся в сложной взаимосвязи с моделью ПО. При этом очевидно, что семантика и прагматика, и тем более, модель, проработаны в той или иной степени лишь для небольшого числа ПО. Что существенно ограничивает возможности содержательной обработки текстов.



Граница взаимодействия Модель ПО – Тезаурус определяется как Онтология, представляющая собой их общую часть, связывающую знания об области со знаниями о языке в проекции на конкретную сферу деятельности.

Это совершенно не означает, что Онтология по своей природе ориентирована на Тезаурус, - напротив, это полноценный Тезаурус невозможен без Онтологии в самой основе его организации.

Установив, что тандем Онтология – Тезаурус, т.е. упомянутый выше ТЕОН, являются необходимым базовым компонентом содержательной обработки текста, мы можем перейти к технологической цепочке, определяющей основные этапы формирования этого тандема.

2. Технологическая цепочка

2.1. Базой практически любых систем обработки текста являются та или иная грамматика и словарь. При этом процесс создания Онтологии и Тезауруса возможен только на основе переработки достаточного массива текстов, - единственного вида сырья, данного нам в ощущениях и доступного для анализа и обработки в символьном виде. Этот процесс схематично представляется состоящим из следующих этапов:

  1. Определение границ заданной предметной области, для чего необходимо иметь достаточно конкретное - хотя бы интуитивное – о ней представление.

  2. Формирование базы Т текстовых массивов, достаточно полно представляющих выбранную ПО

  3. Извлечение из Т максимально полного словника проблемно-ориентированной лексики ТС (слова, словосочетания и специфические конструкции) с расширением каждого компонента ТС до полноты, охватывающей все связанные с ним в данной ПО словоформы.

  4. Разделение ТС на понятийную (терминологическую) лексику ТС1 и прочую, ТС2, связанную с жанровыми, стилистическими и другими особенностями данной ПО.

  5. Формирование на основе ТС1 “инвентарного списка” СП понятий данной ПО, сопоставляемых элементам ТС1.

  6. Классификация элементов СП в соответствии с базовыми семантическими категориями: объект, процесс, событие, свойство, значение и т.п.

  7. Установление между элементами СП отношений из базового набора семантических отношений: часть – целое, частное – общее, объект - свойство и т.п.

  8. Завершение предыдущего этапа означает, что основа Онтологии данной ПО сформирована. К этой основе необходимо добавить сущности и отношения, специфические для данной ПО с тем, чтобы Онтология в первом приближении была готова. Эта работа требует подключения экспертов данной ПО и квалифицированных инженеров знаний.

  9. Теперь каждому элементу словника ТС1 можно сопоставить один или несколько компонентов Онтологии, что позволяет установить синонимию, омонимию и другие важные для семантики будущего Тезауруса характеристики и отношения, создав его основу и выстроив ее взаимосвязь с Онтологией.

  10. Полнота Тезауруса обеспечивается дальнейшей работой лексикографов, расширяющих его словник за счет общелингвистического багажа, энциклопедических и профессиональных знаний (терминология, персоналии, топонимы и т.п.) и расширения текстовой базы Т.

Проверка степени достаточности созданного ТЕОН может проводиться на основе различных процессов обработки текстов, связанных с задачами в данной предметной области.

Таким образом, рассмотренные этапы конструирования ТЕОН на основе обработки представительного корпуса текстов, могут быть поддержаны достаточным уровнем автоматизации, который очевидным образом убывает с продвижением процесса к его завершению, поскольку требует участия все более высокопрофессиональных специалистов трех категорий: лингвистов, инженеров знаний и экспертов предметной области.



2.2. Легко видеть, что, начиная с этапа Е, процесс распараллеливается, поскольку работа над ТЕ и ОН может вестись одновременно при определенном опережении ведущей линии ОН.

Рассмотренная в п.2.1 цепочка этапов выступает как технологическая основа для формирования последовательности обслуживаемых ею приложений. Приведем несколько примеров.

Индексация. Формирование словника проблемно-ориентированной лексики ТС на этапах С и D позволяет выделить его подмножество для определения лексической базы содержательной индексации Отладка этой базы осуществляется как на основе текстов массива Т на стадии уточнения и тестирования процедуры индексации, так и на потоке текстов и\или банке текстов, позволяющей убедиться в полноте базы и качестве индексации

Классификация. Классификация может использоваться как для тематической структуризации всего массива / потока текстов, так и для выделения из него определенных классов того или иного содержания. Переход к процедуре классификации может осуществляться на основании:

  1. Заданной классификации массива обучения, тексты которого уже отнесены к тем или иным классам, или

  2. Использованием соотношения единиц словника ТС и уже сформированной Онтологии, что позволяет добавлять к лексической индексации соответствующие элементы содержательных индексов Онтологии, или

  3. Сочетание методов i и ii.

Понятно, что метод i реализуем при определенной исходной классификации текстов. Его преимущества: он не требует наличия Онтологии и применим для классификаций широкого спектра, в рамках которого создание ТС и Онтологий более чем проблематично. Однако развитие классификации, ее детализация, обобщение и т.п. плохо автоматизируется и требует высокой квалификации разработчиков и интеллектуальной технологической поддержки.

Метод ii в определенном смысле противоположен: он не требует заданной классификации, но наличие Онтологии и ее связи с ТС (т.е. фактически Тезауруса) в данном случае необходимо. В этом его преимущество и недостаток: широкая классификация на его основе невозможна, но зато сама классификация хорошо автоматизируется, причем качество формируемой структуры может быть максимальным.

И, наконец, метод iii может помочь найти баланс между плюсами и минусами первого и второго метода. В частности, дополняя и развивая заданную тематическую структуризацию на основе одного или нескольких специализированных ТЕОНов, даже не слишком качественных и завершенных.

Ясно, что метод i , как уже говорилось, применим после завершения формирования словника проблемно-ориентированной лексики ТС на этапах С и D, метод ii максимально эффективен после этапов I и J, а метод iii может оказаться полезен и на предыдущих этапах, дополняя заданную классификацию на основе использования результатов этапов E - H

3. Спектр возможных приложений

  • Для иллюстрации возможностей представленной технологической базы кратко перечислим несколько возможных приложений, ориентированных на электронные архивы и библиотеки нового поколения:

  • Построение и модификация тематических текстовых рубрикаторов,

  • Эффективный содержательный поиск на основе содержательной индексации,

  • Снятие лексической и семантической неоднозначности,

  • Устранение избыточности и дублирования сообщений,

  • Технология извлечения фактов для анализа содержания и др.

Конечно, спектр приложений не ограничен интеллектуализацией информационных хранилищ, - туда относятся также:

  • Автоматическая обработка потоков текстовых сообщений,

  • Качественный документооборот,

  • Создание ЕЯ интерфейсов к прикладным информационным системам.

  • Лексический и содержательный анализ формального текста (формальные языки, формулы и т.п.).

  • Автоматическое понимание коротких текстов в ограниченной предметной области и машинный перевод содержания на их основе и много другое.

Очевидно, что приведенный список приложений с одной стороны частично пересекается, а с другой не исчерпывает всех классов задач, при решении которых разрабатываемые технологии могут оказаться полезными.

4. Ключевые модули технологической базы

Рассмотрим кратко три разработанных нашим коллективом ключевых компонента технологической базы.

Обсуждаемая технологическая база представляет собой набор компонентов, используемых для

4.1. АЛЕКС-0 engine – универсальное ядро, предназначенное для исполнения системы правил, которые в первую ориентированы на анализ (в перспективе также на трансформацию и синтез) последовательности (цепочки) объектов. Это позволяет использовать его для анализа любых типов текста от естественно языкового до всякой формализованной последовательности символов (формальные языки, формулы и даже последовательности ДНК).

Для применения АЛЕКС-0 к конкретной области нужна его специализация, то есть добавление к нему препроцессора, превращающего символьную цепочку на входе в последовательность соответствующих объектов. При «посимвольной» обработке входного текста такой препроцессор может быть реализован на самом АЛЕКС-0, который будет каждый символ считать за объект и порождать таким образом, вместо текста необходимую для основного этапа цепочку объектов.



Каталог: conference -> cai-08 -> files
conference -> Диодор сицилийский. Историческая библиотека Книга XI
conference -> Анализ концепции многофункционального комплекса для выполнения работ на электрифицированных участках железных дорог
conference -> «жоо-да білім сапасын басқару: проблемалар, келешектегі идеялар мен технологиялар» халықаралық ғылыми-практикалық конференциясы
conference -> Флавоноиды Astragalus uliginosus L. и A. schelichovii Turcz секции Euodmus Bunge (Fabaceae)
conference -> Реферат Тайна каменной черепахи. Пермякова Кристина, Ученица 8 класса мкоу оош №5
conference -> Задача исследования: узнать, как Италия двигалась по пути европейской интеграции
conference -> Обеспечение качества самостоятельной работы с использованием компьютерных технологий у учащихся спо


Достарыңызбен бөлісу:
  1   2   3   4


©netref.ru 2019
әкімшілігінің қараңыз

    Басты бет