Бунин

Современные интерфейсы в компьютерной лингвистике. Компьютерная лингвистика. Программа вступительного экзамена и собеседования по дисциплине «Формальные модели и методы современной лингвистики»

КУРСОВАЯ РАБОТА

по дисциплине «Информатика»

по теме: «Компьютерная лингвистика»


ВВЕДЕНИЕ

2. Современные интерфейсы компьютерной лингвистики

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА


Введение

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


1. Место и роль компьютерной лингвистики в лингвистических исследованиях

В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

Проблема автоматизации индексирования документов и запросов является традиционной для систем автоматизированного поиска текстовой информации. Поначалу под индексированием понимали процесс присвоения документам и запросам классификационных индексов, отражающих их тематическое содержание. В дальнейшем это понятие трансформировалось и термином «индексирование» стали называть процесс перевода описаний документов и запросов с естественного языка на формализованный, в частности, на язык «поисковых образов». Поисковые образы документов стали, как правило, оформляться в виде перечней ключевых слов и словосочетаний, отражающих их тематическое содержание, а поисковые образы запросов – в виде логических конструкций, в которых ключевые слова и словосочетания соединялись друг с другом логическими и синтаксическими операторами.

Автоматическое индексирование документов удобно проводить по текстам их рефератов (если они имеются), поскольку в рефератах основное содержание документов отражается в концентрированном виде. Индексирование может проводиться с контролем по тезаурусу или без контроля. В первом случае в тексте заголовка документа и его реферата ищутся ключевые слова и словосочетания эталонного машинного словаря и в ПОД включаются только те из них, которые нашлись в словаре. Во втором случае ключевые слова и словосочетания выделяются из текста и включаются в ПОД независимо от их принадлежности к какому-либо эталонному словарю. Был реализован еще и третий вариант, где наряду с терминами из машинного тезауруса в ПОД включались еще и термины, выделенные из заголовка и первого предложения реферата документа. Эксперименты показали, что ПОДы, составленные в автоматическом режиме по заголовкам и рефератам документов, обеспечивают большую полноту поиска, чем ПОДы, составленные вручную. Объясняется это тем, что система автоматического индексирования более полно отражает различные аспекты содержания документов, чем система ручного индексирования.

При автоматическом индексировании запросов возникают примерно те же проблемы, что и при автоматическом индексировании документов. Здесь также приходится выделять ключевые слова и словосочетания из текста и нормализовать слова, входящие в текст запроса. Логические связки между ключевыми словами и словосочетаниями и контекстуальные операторы могут проставляться вручную или с помощью автоматизированной процедуры. Важным элементом процесса автоматического индексирования запроса является дополнение входящих в его состав ключевых слов и словосочетаний их синонимами и гипонимами (иногда также гиперонимами и другими терминами, ассоциированными с исходными терминами запроса). Это может быть сделано в автоматическом или в интерактивном режиме с помощью машинного тезауруса.

Проблему автоматизации поиска документальной информации мы уже частично рассматривали в связи с задачей автоматического индексирования. Наиболее перспективным здесь является поиск документов по их полным текстам, так как использование для этой цели всякого рода заменителей (библиографических описаний, поисковых образов документов и текстов их рефератов) приводит к потерям информации при поиске. Наибольшие потери имеют место тогда, когда в качестве заменителей первичных документов используются их библиографические описания, наименьшие – при использовании рефератов.

Важными характеристиками качества поиска информации являются его полнота и точность. Полнота поиска может быть обеспечена путем максимального учета парадигматических связей между единицами языка и речи (словами и словосочетаниями), а точность – путем учета их синтагматических связей. Существует мнение, что полнота и точность поиска находятся в обратной зависимости: меры по улучшению одной из этих характеристик приводят к ухудшению другой. Но это справедливо только для фиксированной логики поиска. Если эту логику совершенствовать, то обе характеристики могут улучшаться одновременно.

Процесс поиска информации в полнотекстовых базах данных целесообразно строить как процесс диалогового общения пользователя с информационно-поисковой системой (ИПС), при котором он последовательно просматривает фрагменты текстов (абзацы, параграфы), удовлетворяющие логическим условиям запроса, и отбирает те из них, которые для него представляют интерес. В качестве окончательных результатов поиска могут выдаваться как полные тексты документов, так и любые их фрагменты.

Как видно из предыдущих рассуждений, при автоматическом поиске информации приходится преодолевать языковый барьер, возникающий между пользователем и ИПС в связи с имеющим место в текстах разнообразием форм представления одного и того же смысла. Этот барьер становится еще более значительным, если поиск приходится вести в разноязычных базах данных. Кардинальным решением проблемы здесь может быть машинный перевод текстов документов с одних языков на другие. Это можно делать либо заранее, перед загрузкой документов в поисковую систему, либо в процессе поиска информации. В последнем случае запрос пользователя должен переводиться на язык массива документов, в котором ведется поиск, а результаты поиска – на язык запроса. Такого рода поисковые системы уже работают в системе Internet. В ВИНИТИ РАН была также построена система Cyrillic Browser, которая позволяет производить поиск информации в русскоязычных текстах по запросам на английском языке с выдачей результатов поиска также на языке пользователя.

Важной и перспективной задачей компьютерной лингвистики является построение лингвистических процессоров, обеспечивающих общение пользователей с интеллектуальными автоматизированными информационными системами (в частности с экспертными системами) на естественном языке или на языке, близком к естественному. Поскольку в современных интеллектуальных системах информация хранится в формализованном виде, то лингвистические процессоры, выполняя роль посредников между человеком и ЭВМ, должны решать следующие основные задачи: 1) задачу перехода от текстов входных информационных запросов и сообщений на естественном языке к представлению их смысла на формализованном языке (при вводе информации в ЭВМ); 2) задачу перехода от формализованного представления смысла выходных сообщений к его представлению на естественном языке (при выдаче информации человеку). Первая задача должна решаться путем морфологического, синтаксического и концептуального анализа входных запросов и сообщений, вторая – путем концептуального, синтаксического и морфологического синтеза выходных сообщений.

Концептуальный анализ информационных запросов и сообщений состоит в выявлении их понятийной структуры (границ наименований понятий и отношений между понятиями в тексте) и переводе этой структуры на формализованный язык. Он проводится после морфологического и синтаксического анализа запросов и сообщений. Концептуальный синтез сообщений состоит в переходе от представления элементов их структуры на формализованном языке к вербальному (словесному) представлению. После этого сообщениям дается необходимое синтаксическое и морфологическое оформление.

Для машинного перевода текстов с одних естественных языков на другие необходимо располагать словарями переводных соответствий между наименованиями понятий. Знания о таких переводных соответствиях накапливались многими поколениями людей и оформлялись в виде специальных изданий – двуязычных или многоязычных словарей. Для специалистов, владеющих в той или иной мере иностранными языками, эти словари служили ценными пособиями при переводе текстов.

В традиционных двуязычных и многоязычных словарях общего назначения переводные эквиваленты указывались преимущественно для отдельных слов, для словосочетаний – значительно реже. Указание переводных эквивалентов для словосочетаний было более характерно для специальных терминологических словарей. Поэтому при переводе отрезков текстов, содержащих многозначные слова, у обучаемых часто возникали затруднения.

Ниже приведены переводные соответствия между несколькими парами английских и русских фраз по «школьной» тематике.

1) The bat looks like a mouse with wings – Летучая мышь похожа на мышь с крыльями.

2) Children like to play in the sand on the beach – Дети любят играть в песке на берегу моря.

3) A drop of rain fell on my hand – Капля дождя упала мне на руку.

4) Dry wood burns easily – сухие дрова хорошо горят.

5) He pretended not to hear me – Он делал вид, что не слышит меня.

Здесь английские фразы не являются идиоматическими выражениями. Тем не менее, их перевод на русский язык лишь с некоторой натяжкой можно рассматривать как простой пословный перевод, так как почти все входящие в них слова многозначные. Поэтому здесь обучаемым способны помочь только достижения компьютерной лингвистики.

Лингви́стика (от лат. lingua -
язык), языкозна́ние, языкове́дение - наука,
изучающая языки.
Это наука о естественном человеческом языке вообще
и обо всех языках мира как его
индивидуализированных представителях.
В широком смысле слова, лингвистика
подразделяется на научную и практическую. Чаще
всего под лингвистикой подразумевается именно
научная лингвистика. Является частью семиотики как
науки о знаках.
Лингвистикой профессионально занимаются учёныелингвисты.

Лингвистика и Информатика.
В жизни современного общества важную роль играют автоматизированные
информационные технологии. Но развитие информационных технологий происходит
весьма неравномерно: если современный уровень вычислительной техники и
средств связи поражает воображение, то в области смысловой обработки
информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от
достижений в изучении процессов человеческого мышления, процессов речевого
общения между людьми и от умения моделировать эти процессы на ЭВМ. А это задача чрезвычайной сложности.Когда речь идет о создании перспективных
информационных технологий, то проблемы автоматической обработки текстовой
информации, представленной на естественных языках, выступают на передний план.
Это определяется тем, что мышление человека тесно связано с его языком. Более
того, естественный язык является инструментом мышления. Он является также
универсальным средством общения между людьми – средством восприятия,
накопления, хранения, обработки и передачи информации.
Проблемами использования естественного языка в системах автоматической
обработки информации занимается наука компьютерная лингвистика. Эта наука
возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов
прошлого столетия. Поначалу, в период своего становления, она имела различные
названия: математическая лингвистика, вычислительная лингвистика, инженерная
лингвистика. Но в начале восьмидесятых годов за ней закрепилось название
компьютерная лингвистика.

Компьютерная лингвистика - это область знаний, связанная с решением задач
автоматической обработки информации, представленной на естественном языке.
Центральными научными проблемами компьютерной лингвистики являются проблема
моделирования процесса понимания смысла текстов (перехода от текста к
формализованному представлению его смысла) и проблема синтеза речи (перехода от
формализованного представления смысла к текстам на естественном языке). Эти проблемы
возникают при решении ряда прикладных задач:
1) автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ,
2) автоматического анализа и синтеза устной речи,
3) автоматического перевода текстов с одних языков на другие,
4) общения с ЭВМ на естественном языке,
5) автоматической классификации и индексирования текстовых документов, их
автоматического реферирования, поиска документов в полнотекстовых базах данных.
За прошедшие полвека в области компьютерной лингвистики были получены
значительные научные и практические результаты: были созданы системы машинного
перевода текстов с одних естественных языков на другие, системы автоматизированного
поиска информации в текстах, системы автоматического анализа и синтеза устной речи и
многие другие. Но были и разочарования. Например, проблема машинного перевода
текстов с одних языков на другие оказалась значительно сложнее, чем это представляли
себе пионеры машинного перевода и их последователи. То же самое можно сказать об
автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной
речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы
достигнуть нужных результатов.

Обработка естественного языка (англ. natural language processing; синтаксический,
морфологический, семантический анализы текста). Сюда включают также:
Корпусная лингвистика, создание и использование электронных корпусов текстов
Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари
используют, например, для автоматического перевода, проверки орфографии.
Автоматический перевод текстов. Среди русских переводчиков популярным
является Промт. Среди бесплатных известен переводчик Google Translate
Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact
extraction, text mining)
Автореферирование (англ. automatic text summarization). Эта функция включена,
например, в Microsoft Word.
Построение систем управления знаниями. См. Экспертные системы
Создание вопросно-ответных систем (англ. question answering systems).
Оптическое распознавание символов (англ. OCR). Например, программа FineReader
Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО
Автоматический синтез речи

Новоселова Ирина

Почему не все машинные переводы совершенны? От чего зависит качество перевода? Достаточно ли автору знаний, чтобы использовать и дополнять существующие компьютерные словари? Ответы на эти вопросы автор стремилась представить в своей работе. Отчет по теме - в прикрепленном файле, продукт проектной деятельности - на школьном портале

Скачать:

Предварительный просмотр:

Открытая

Международная

научно-исследовательская

конференция

старшеклассников и студентов

«Образование. Наука. Профессия»

Секция «Лингвистика иноязычная»

«Компьютерная лингвистика»

Выполнила Новосёлова Ирина

МОУ гимназия № 39 «Классическая»

10 «Б» класс

Научные руководители:

Чигринёва Татьяна Дмитриевна,

учитель английского языка высшей категории

Осипова Светлана Леонидовна,

учитель информатики высшей категории

г. Отрадный

2011

  1. Англоязычные слова в ИКТ

Смотрите на сайте

  1. Мой эксперимент

Одна из задач – провести эксперимент, который заключен в сравнении возможностей различных компьютерных лингвистических словарей, по более точно-приближенному переводу с английского на русский.

Были протестированы следующие сайты:

  1. http://translate.eu/
  2. http://translate.google.ru/#ru
  3. http://www.langinfo.ru/index.php?div=6
  4. http://www2.worldlingo.com/ru/products_services/worldlingo_translator.html

Для чистоты эксперимента, я выбирала предложения с разной степенью сложности стилистического перевода. Фразы для ввода следующие:

1. A new report says today’s teenagers are more selfish than they were 20 years ago

(Новый доклад говорит, что современные подростки более эгоистичны, чем они были 20 лет назад)

2. She believes video games and the Internet are the biggest reasons for this increased selfishness.

(Она верит, что видео игры и Интернет являются наиболее значимыми причинами для этой возрастающей эгоистичности)

3. They want to be better than others

(Они хотят быть лучше, чем остальные)

4. She found the big increase started from the year 2000, which is when violent video games became really popular.

(Она нашла большой рост, начавшийся с 2000 года, когда жестокие видео игры стали действительно популярны)

Переведя эти предложения на сайтах онлайн-переводчиков, я получила следующие результаты:

  1. http://translate.eu/

КУРСОВАЯ РАБОТА

по дисциплине «Информатика»

по теме: «Компьютерная лингвистика»


ВВЕДЕНИЕ

1. Место и роль компьютерной лингвистики в лингвистических исследованиях

2. Современные интерфейсы компьютерной лингвистики

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА


Введение

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики