Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги (а даними були невеликі діалоги з резервування готелів тощо), розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно. Для розпізнавання речень слід було враховувати інтонацію, що виконував просодичний модуль, який розпізнавав ймовірні фрази з точністю 93%.
Якщо в минулому багато проектів з машинного перекладу або базувалися на правилах, або використовували виключно статистичні методи, то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. Важливим є не тільки підхід (деякі попередні системи перекладу використовували схожу ідею), а й оцінка результатів. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно, як написано у звіті “завдяки поєднанню глибинного лінгвістичного аналізу зі статистичними методами”. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.
Результаты (
английский) 1:
[копия]Скопировано!
Moreover, the translation of texts and speech, that is the first to be digitize dialogs (and data were small dialogues with reservation, etc.), to recognize words and sentences. Difficulty recognizing words are mugikannâh, hmikannâh, and Interestingly, it turned out, in the conversations people at times echoed the one and also the word several times in a row, or generally talked about illiterate. For recognition of sentences should take into account intonation that he prosodičnij module, which recognize the likely phrases with accuracy of 93%.If in the past a lot of projects with machine translation or were based on rules, or used exclusively statistical methods, then in the Verbmobil was decided to use a hybrid approach. Generating the possible translation using multi-level linguistic analysis and translation of the application of statistical methods is best. It is important to not only approach (some previous translation system used a similar idea) and assessment of results. According to translators, with 25,000 translated examples 74,2% were translated correctly, as described in the report "due to a combination of deep linguistic analysis with statistical methods." Or, in other words, statistical methods are simple to use, although the translation is not always on the mark, and the use of semantics requires a lot of time, but produces a better translation. But there are project participants that claim — it "dragged" is the statistical methods. Therefore, it would be particularly interesting to see the detailed results separately on each of the subsystems: the, which used the linguistic analysis, and one which used statistical methods. Interesting, because the first time was made a deep analysis for three languages — from the recognition of words and sentences, and the semantics of discourse have been used by modern formalisms of systems, in particular in the field of syntax HPSG, discourse representation theory discourse DRT. And, of course, it would be important to assess how implementation and introduction of deep linguistic analysis to improve the quality of machine translation.
переводится, пожалуйста, подождите..
Результаты (
английский) 2:
[копия]Скопировано!
Moreover, no translation of texts and speech, that first one would digitize dialogue (and the data were small dialogues hotel reservations, etc.), recognize words and sentences. The difficulty lies in the recognition of words muhykannyah, hmykannyah, and interestingly, it appears in conversation people sometimes repeat one and the same word several times in succession, or generally speaking illiterate. To recognize sentences should take into account the tone, performing prosodic module that recognize possible phrases to within 93%. If in the past, many projects on machine translation or rule-based or statistical methods used alone, in Verbmobil decided to use a hybrid approach. Generating possible translation using multi-linguistic analysis and translation using statistical methods, elected best. It is important to not only approach (some preliminary translation system used a similar idea), but the evaluation results. According translators, with 25,000 examples of translated 74.2% were translated correctly, as it is written in the report "through a combination of deep linguistic analysis with statistical methods." Or, in other words, statistical methods are simple to use, although the translation is not always accurate, and the use of semantics requires a lot of time, but produces higher quality translation. But there are project participants that claim - it "pulled" is statistical methods. It is therefore particularly interesting to see detailed results separately for each of the subsystems to that used linguistic analysis, and the one that used statistical methods. I wonder why that was first performed in-depth analysis of three languages - recognition of words and sentences, and the semantics of discourse used modern formalism, particularly in the area of syntax HPSG, discourse - discourse representation theory DRT. And, of course, important to assess whether the implementation and application of deep linguistic analysis to improve the quality of machine translation.
переводится, пожалуйста, подождите..
Результаты (
английский) 3:
[копия]Скопировано!
Moreover, translation don't texts, but broadcasting, i.e. first have to be digitized dialogs (and data were slight dialogs with booking hotels, etc.), identify words and sentences.Difficulties word completion lie in мугиканнях, хмиканнях and interestingly, it turned out, in the conversations people sometimes repeted one and the same word several times in succession or will generally speaking неграмотно.For recognition of sentences should take into account the intonation, who served просодичний module, which use another email BYT's phrase exactly 93%.
If last many projects with translation or based on rules, or used exclusively statistical methods, then Verbmobil it was decided to apply hybrid approach.
переводится, пожалуйста, подождите..