Перевод текста в редакторе word 2002 часть 2

Способен компьютер научиться подобным тонкостям, и если да, то как? Попытка ответить на этот вопрос и послужила развития второго направления в разработке систем МП. К нему в первую очередь относится лингвистическая школа. Это экспериментальные системы ЭТАП и RETRANS. Система МП ЭТАП разрабатывается в лаборатории компьютерной лингвистики Института проблем передачи информации (ИППИ РАН). Аббревиатура ЭТАП, указывала на «электротехнический автоматический перевод». На протяжении ряда лет разработку возглавлял академик Ю. Д. Апресян (руководитель авторского коллектива «Нового большого англо-русского словаря» — наиболее полного из существующих на сегодня англо-русских словарей), а затем его ученик, доктор филологических наук И. М. Богуславский . Система основана на лингвистической теории «СМЫСЛ — ТЕКСТ», основоположником которой является российский ученый И. А. Мельчук, проживающего сейчас в Канади1. Согласно этой теории выделяются несколько уровней представления речевой информации: орфографический, морфологический, синтаксический и семантический. Если же речь идет о машинном переводе, то информация на одном языке должна последовательно пройти все стадии от введения исходного текста до получения смысла, зашифрованного с помощью специальной семантической языка.
https://protect-market.ru/categories/stolby-dlya-zabora

Затем процесс идет в обратном порядке: от семантического уровня (смысла) до орфографического (конструирование готового текста) на языке перевода. Для этого необходимо пройти следующие этапы анализа исходного текста: морфологический анализ, синтаксический, семантический, и в обратном порядке такие же этапы синтеза. Это сложный процесс. Так, например, чтобы правильно справиться с синтаксическим анализом предложений, системе перевода следует «иметь представление» о том, какие типы связей с другими словами характерные для того или иного слова. Так, о глаголе " купить " система должна знать: купить может кто что-нибудь у кого-нибудь за сколько-нибудь и т. д. Единицей перевода в этих системах считается отдельное слово, а предложение, с его синтаксической структурой. Другой подход к глобальному перевода реализован в системе RETRANS (автор концепции — профессор Г. Г. Белоногов). Процесс перевода в этом случае состоит из следующих основных стадий: Первая стадия — анализ исходного текста. На основе «локального семантико-синтаксического анализа» текста распознаются фразеологические единицы: глагольные сообщения, именные словосочетании и другие отрезки текста, для которых имеет смысл искать переводные эквиваленты в машинном словаре. Вторая стадия — нормализация и формирование поисковых образов. Поисков образ — это нормализованное представление текстовой единицы (для существительного — это именительный падеж единственного числа, для глаголов — основа, имеет специальный код, характеризующий тип словоизменения и т. д.). Третья стадия — поиск в словаре. Наконец, последняя стадия — синтез исходного текста, для которого выполняется на основе синтаксического анализа текста-оригинала. Серьезная проблема МП — многозначность (полисемия). Появление неоднозначностей в тексте является естественной, но она относительно маловероятна, если основной структурной единицей текста и словаря является не слово, а фраза или словосочетание: многозначных фраз и речевых оборотов намного меньше, чем многозначных слов. Вообще, чем меньше отрезок текста, тем менее вероятна полисемия. Многозначных корней и слов в языке больше, чем многозначных слов, которых, в свою очередь значительно больше, чем многозначных словосочетаний. Дополнительным средством решения проблем, связанных с многозначностью является тематические словари, где для многозначного слова или фразы указывается приоритетное переводной эквивалент, специфический для данной предметной области. Методика применения дополнительных словарей существенно различается в разных программных продуктов. Стандартные средства перевода в Word 2002 предусматривают возможность подключения словарей из Интернета (для зарегистрированных пользователей), некоторые системы не позволяют пользователю выбирать словарь самостоятельно (дополнительные словари избираются автоматически на основе ключевых слов в тексте, которые программа интерпретирует как принадлежащие к определенной предметной области). Такой алгоритм реализован в системе Pragma компании Trident Software1. Большинство представленных для Word 2002 коммерческих систем машинного перевода реализуют алгоритмы глобального перевода, стандартные же средства Word 2002 ориентированы в большей степени на технологию перевода пословного. Следует однако отметить, что конкретные программные продукты как правило совмещают алгоритмы различных видов, соединяют в различных пропорциях большое количество инженерных идей и решений. История разработки систем машинного перевода показала, что традиционная лингвистика, не ставила перед собой задач создания точных и одновременно исчерпывающих описаний языков и почти не занималась проблемой соответствия между языками, очень мало занималась семантикой и даже синтаксисом отдельных языков, далека от потребностей обеспечить разработки по системам МП готовыми сведениями. «Сложность оказалась не в том, чтобы формализовать и» машинизуваты «несколько известное о языках, а в том, чтобы понять, какого рода информация о языках необходима в данной связи, а затем научиться добывать и описывать эту информацию» 1. Тем самым большая доля ответственности со существования автоматического перевода оказалась возложенной на лингвистику. Выяснилось, что сначала должна быть проведена достаточно трудоемкая лингвистическая работа с формализованного описания языков, и только потом ее результаты могут быть использованы для построения системы МП, в то же время МП — это и экспериментально-прикладная отрасль, где лингвистические теории, описания, гипотезы и т. п. могут проходить проверку практикой. 1.2. Основные компоненты систем машинного перевода Одной из главных особенностей современной технической деятельности является системный подход к объектам исследования и проектирования. В термин «система» вкладываются разные понятия, но во всех случаях система представляет собой подмножество взаимосвязанных элементов, выделенных из множества элементов любой природы в соответствии с требованиями решаемой задачи. Система представляет собой определенную целостность, состоящая из взаимозависимых частей, каждая из которых вносит свой вклад в характеристику целого. С функциональной точки зрения любое программное среду обработки текстов на естественном языке (в том числе и система МП) включает в себе2 — программно-математическое обеспечение системы; — лингвистическое обеспечение системы; — информационное обеспечение системы; — техническое обеспечение системы; — кадровое обеспечение системы. Все эти составляющие в комплексе обеспечивают работу системы. При отсутствии какого-либо компонента функционирования системы невозможно, при этом различные виды обеспечения системы должны быть согласованы друг с другом. Поэтому представители различных научных дисциплин должны совместно выбирать и разрабатывать как строение всей системы, так и отдельных ее частей. Например, математики и лингвисты должны совместно выбрать тип грамматики, установить допустимый вид грамматических правил и т. Д. После того, как рамки установлены, заполнение этих рамок, то есть конкретные разработки в каждой области, могут вестись представителями каждой специальности самостоятельно. «Качество разработки лингвистического обеспечения зависит в значительной степени (если не полностью) от профессионализма лингвистов» 1.

Комментарии и пинги к записи запрещены.

Комментарии закрыты.