Системи машинного перекладу справді складно розробляти — вони включають аналіз плюс генерацію тексту з врахуванням особливостей кожної з мов. Лінгвістичний аналіз є багаторівневим а це означає, що найменша помилка на одному з рівнів аналізу може бути критичною для здійснення наступного. Помилки мають здатність “множитися” з рівня на рівень, і в результаті якість аналізу є такою, що про бажаний кінцевий результат — машинний переклад ніхто й не згадує. Втім, можна обійтися без “лінгвістичної інформації” та застосовувати лише статистичні методи. Це було зроблено на початку 60-х і результати не були втішними. До статистичних методів повернулися років за 30 — і тут багато дослідників були здивовані. IBM оприлюднило результати в межах проекту Candide (мови англійська-французька), які свідчили, що половина перекладених фраз була абсолютно правильною (точний відповідник)

Verbmobil почався у 1993 і закінчився у 2000 році, об’єднавши при цьому 22 університети та 7 підприємств. Мови перекладу — англійська, німецька та японська. Причому, переклад не текстів, а мовлення, себто спершу слід було оцифрувати діалоги, розпізнати слова та речення. Труднощі розпізнавання слів полягають у мугиканнях, хмиканнях, й що цікаво, виявилося, у розмовах люди часом повторювали одне й теж слово кілька разів підряд, або й взагалі говорили неграмотно.

Якщо в минулому багато проектів з машинного перекладу базувалися на правилах то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.
Machine translation system is really difficult to develop — they include analysis plus generating text taking into account the characteristics of each language. Linguistic analysis is multilevel and this means that the slightest error on one of the levels of analysis can be critical for the next. Bugs have the ability to "there" from level to level, and as a result the quality of the analysis is such that the desired end result is machine translation nobody mentions. However, you can bypass the "linguistic information" and apply only to statistical methods. This was done at the beginning of the 1960s, and the results were not satisfying. The statistical methods returned 30 years — and there are many researchers were surprised. IBM released the results within the project's Candide (English-French), who testified that half of the translated phrases was absolutely correct (exact match)Verbmobil began in 1993 and ended in 2000, joining the 22 universities and 7 enterprises. Language translation--English, German and Japanese. Moreover, the translation of texts and speech, that is the first to be digitize dialogues, to recognize words and sentences. Difficulty recognizing words are mugikannâh, hmikannâh, and Interestingly, it turned out, in the conversations people at times echoed the one and also the word several times in a row, or generally talked about illiterate.Якщо в минулому багато проектів з машинного перекладу базувалися на правилах то у Verbmobil було вирішено застосувати гібридний підхід. Згенерувавши можливий переклад з застосуванням багаторівневого лінгвістичного аналізу та переклад з застосуванням статистичних методів, обирається найкращий. За оцінками перекладачів, з 25000 перекладених прикладів 74,2% були перекладені правильно. Або, іншими словами, статистичні методи є простими у застосуванні, хоча переклад не завжди є влучним, а використання семантики вимагає багато часу, але продукує якісніший переклад. Але є учасники проекту, що стверджують — його “витягнули” саме статистичні методи. Тому особливо цікавим було б побачити детальні результати окремо по кожній з підсистем: тій, що використовувала лінгвістичний аналіз, і тій, котра використовувала статистичні методи. Цікаво, тому що вперше був виконаний глибинний аналіз для трьох мов — від розпізнавання слів та речень, і до семантики дискурсу, були використані сучасні формалізми, зокрема, в області синтаксису HPSG, дискурсу — теорія представлення дискурсу DRT. І, певна річ, важливим було б оцінити, наскільки здійснення й впровадження глибинного лінгвістичного аналізу покращують якість машинного перекладу.
