Займатися машинним перекладом, а чи навіть говорити або писати про нього — справа невдячна. Поки одні посміхаються при згадці “системы Окон”, інші намагаються бодай на 1 відсоток покращити якість перекладу. Системи машинного перекладу справді складно розробляти — вони включають аналіз плюс генерацію тексту з врахуванням особливостей кожної з мов. Лінгвістичний аналіз є багаторівневим (від морфологічного рівня й до рівня дискурсу), т. зв. глибинним, а це означає, що найменша помилка на одному з рівнів аналізу може бути критичною для здійснення наступного. Помилки мають здатність “множитися” з рівня на рівень, і в результаті якість аналізу є такою, що про бажаний кінцевий результат — машинний переклад ніхто й не згадує. Втім, можна обійтися без “лінгвістичної інформації” та застосовувати лише статистичні методи. Це було зроблено на початку 60-х і результати не були втішними. До статистичних методів повернулися років за 30 — і тут багато дослідників були здивовані. IBM оприлюднило результати в межах проекту Candide (мови англійська-французька), які свідчили, що половина перекладених фраз була або абсолютно правильною (точний відповідник), або передає той же ж зміст, але іншими словами.
Verbmobil почався у 1993 і закінчився у 2000 році, об’єднавши при цьому 22 університети та 7 підприємств. З-поміж університетів більшість була німецьких, два —американських, одна група з Японії. Зацікавленими підприємствами виявилися Siemens, Philips, IBM та інші. Мови перекладу — англійська, німецька та японська. Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги (а даними були невеликі діалоги з резервування готелів тощо), розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно. Для розпізнавання речень слід було враховувати інтонацію, що виконував просодичний модуль, який розпізнавав ймовірні фрази з точністю 93%.
Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.
Кінцевої мети — функціонуючої системи перекладу — досягти не вдалося. Щоправ
Результаты (
английский) 1:
[копия]Скопировано!
Engage in machine translation, or even talk or write about him is ungrateful. While some people smiling at the mention of "press Okon," others are trying to at least 1 percent to improve the quality of the translation. Machine translation system is really difficult to develop — they include analysis plus generating text taking into account the characteristics of each language. Linguistic analysis is multi-level (from the morphological level to the level of discourse), so-called. substantive progress, and this means that the slightest error on one of the levels of analysis can be critical for the next. Bugs have the ability to "there" from level to level, and as a result the quality of the analysis is such that the desired end result is machine translation nobody mentions. However, you can bypass the "linguistic information" and apply only to statistical methods. This was done at the beginning of the 1960s, and the results were not satisfying. The statistical methods returned 30 years — and there are many researchers were surprised. IBM released the results within the project's Candide (English-French), who testified that half of the translated phrases was either absolutely accurate (exact match), or transmitting the same content, but in other words.Verbmobil began in 1993 and ended in 2000, joining the 22 universities and 7 enterprises. Among the universities of the majority was German, two American, one group from Japan. The interested companies were Siemens, Philips, IBM and others. Language translation--English, German and Japanese. Moreover, the translation of texts and speech, that is the first to be digitize dialogs (and data were small dialogues with reservation, etc.), to recognize words and sentences. Difficulty recognizing words are mugikannâh, hmikannâh, and Interestingly, it turned out, in the conversations people at times echoed the one and also the word several times in a row, or generally talked about illiterate. For recognition of sentences should take into account intonation that he prosodičnij module, which recognize the likely phrases with accuracy of 93%.Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.The ultimate goal is a functioning system of translation – reach failed. Ŝoprav
переводится, пожалуйста, подождите..
Результаты (
английский) 2:
[копия]Скопировано!
Engage machine translation, nor even speak or write about it - a thankless task. While some people smile at the mention of "windows system", others try to at least 1 percent a better translation. Machine Translation is really difficult to develop - they include text analysis plus generation, taking into account the characteristics of each language. Linguistic analysis is multilevel (from morphological level and the level of discourse), v. BC. deep, which means that the slightest mistake at one level of analysis is critical to make another. Errors have the ability to "multiply" from level to level, and as a result the quality of the analysis is that of the desired end result - machine translation, no one remembers. However, you can not do without "linguistic" and only apply statistical methods. This was done in the early 60s and the results were not encouraging. By statistical methods back 30 years - and there are many researchers were surprised. IBM announced the results of the project Candide (English-French language), which showed that half of the translated phrases or was absolutely correct (exact match), or transmit the same same content, but in other words. Verbmobil began in 1993 and ended in 2000 combining with 22 universities and 7 companies. Among the most was the German universities, two -American, one group from Japan. Interested companies were Siemens, Philips, IBM and others. Translations - English, German and Japanese. Moreover, no translation of texts and speech, that first one would digitize dialogue (and the data were small dialogues hotel reservations, etc.), recognize words and sentences. The difficulty lies in the recognition of words muhykannyah, hmykannyah, and interestingly, it appears in conversation people sometimes repeat one and the same word several times in succession, or generally speaking illiterate. To recognize sentences should take into account the tone, performing prosodic module that recognize possible phrases to within 93%. If in the past, many projects on machine translation or rule-based or statistical methods used alone, in Verbmobil decided to use a hybrid approach. Generating possible translation using multi-linguistic analysis and translation using statistical methods, elected best. It is important to not only approach (some preliminary translation system used a similar idea), but the evaluation results. According translators, with 25,000 examples of translated 74.2% were translated correctly, as it is written in the report "through a combination of deep linguistic analysis with statistical methods." Or, in other words, statistical methods are simple to use, although the translation is not always accurate, and the use of semantics requires a lot of time, but produces higher quality translation. But there are project participants that claim - it "pulled" is statistical methods. It is therefore particularly interesting to see detailed results separately for each of the subsystems to that used linguistic analysis, and the one that used statistical methods. I wonder why that was first performed in-depth analysis of three languages - recognition of words and sentences, and the semantics of discourse used modern formalism, particularly in the area of syntax HPSG, discourse - discourse representation theory DRT. And, of course, important to assess whether the implementation and application of deep linguistic analysis to improve the quality of machine translation. Ultimate goal - functioning translation system - could not be reached. Schoprav
переводится, пожалуйста, подождите..
Результаты (
английский) 3:
[копия]Скопировано!
deal with machine translation, or even talk or write about it - a thankless task. While some smile when referring to "Окон systems", others try to at least by 1% to improve the quality of translation.The system of machine translation is really difficult to develop - they include analysis plus generation text with consideration of each of the languages.Linguistic analysis is multilevel (from morphological level and to the level of discourse), t Gender equality. The in-depth, and this means that the slightest mistake on one level analysis may be critical for the next one.Mistakes have the ability to "multiply" with a level level, and as a result the quality of analysis is such that about the desired end result - machine translation and nobody remembers. However,You can do without the "linguistic and used only statistical methods. This was done at the beginning of 60s and results have encouraging.The statistical methods back years over 30 - and here many researchers were surprised. IBM released results within the framework of a project Candide (languages available for English and French), which demonstrate,Half with phrases be, or absolutely correct (the lists of tabulator), or UNIAN at the same content in other words.
Verbmobil began in 1993 and ended in 2000,
переводится, пожалуйста, подождите..