V Evropě se hovoří 225 domorodými jazyky, a proto Rada Evropy vyhlásila na podporu mnohojazyčnosti 26. září Dnem evropských jazyků. Jeho cílem je především posilovat jazykovou a kulturní rozmanitost a celoživotní jazykové vzdělávání. Zájem o jazyky (a jazyk obecně) ovšem neleží na srdci jen institucím, ale – byť možná poněkud překvapivě – také sektoru IT.

Komunikace s počítači se v průběhu času značně proměňovala. První počítače pracovaly pouze s úzce vymezenými vstupy jako čísla zakódovaná na děrných štítcích. Později si dokázaly poradit s o něco složitějšími, stále však jasně strukturovanými daty. Fakta z našeho světa, mnohdy komplexní a neurčitá, bylo třeba překódovat do přesně definovaných vstupů počítačů. Konverze byla nutná i opačným směrem: lidé museli přizpůsobit výstupy zpracování a převést je z „počítačového jazyka“ do toho přirozeného.

Abychom dnes dokázali zpracovat a využít obrovská množství nestrukturovaných dat, ukazuje se, že potřebujeme pro komunikaci s počítači nový „protokol“, který by je přiblížil jazykovým komunikačním schopnostem člověka.

Jazyk se vyvíjí už dlouhá staletí a zdaleka není jen nástrojem pro sdílení informací. Odráží složitou povahu našeho světa, a obsahuje tedy mnohem víc než jen prostá fakta: mnohoznačnost, neurčitost, ironii, humor a plní i řadu sociálních funkcí. Existují také značné rozdíly mezi psanou a mluvenou formou a komunikace bývá doprovázena celou řadou nonverbálních aspektů jako je mimika či gestikulace.

Těmito aspekty se zabývá víceoborová disciplína nazvaná natural language processing ( zpracování přirozeného jazyka), která zahrnuje např. počítačovou lingvistiku, matematiku, stojové učení, neurovědu atd. .Zkoumá přirozený jazyk a získané poznatky aplikuje na interakci s počítači a vytváření nových technologií. A bude hrát právě klíčovou roli v definici nových lingvistických rozhraní, kterými budou počítače komunikovat.

V budoucnu budeme mít z hlediska interakce různé škály počítačových komponent, programů a systému. Některé z nich budou rozumět přirozenému jazyku na úrovni jednodušších příkazů, podobně jako třeba zvířata, u jiných budou v dané doméně komunikační schopnosti srovnatelné s člověkem a konečně se dočkáme i řešení, která bychom nazvali „superhuman“. Ta překonají lidské odborníky daného oboru, budou zpracovávat data a sdělovat je lidem ve formě podobné přirozenému jazyku. Tato lingvistická rozhraní, jejichž éru zahajuje počítač IBM Watson, ukazují, že počítačová komunikace s využitím přirozeného jazyka přesáhne dříve úzce vymezené oblasti.

Jsme tedy svědky toho, jak se po logice a matematických výpočtech lidský jazyk poprvé stává výraznou komponentou počítačového světa. Největší lidský vynález všech dob – jazyk – si tak dnes IT odborníci vypůjčují, aby s jeho pomocí vytvořili informační protokol pro nadcházející éru velkých, neuspořádaných a neurčitých dat.

Při práci s mnoha různými jazyky si musíme být vědomi mnoha lingvistických rozdílů, jež mezi nimi existují. Víme například, že v češtině musíme slova skloňovat a časovat a že slovosled máme o něco volnější než v některých cizích jazycích. Na druhou stranu, zatímco my u sloves máme jen tři základní časy (minulý, přítomný a budoucí), angličtina nebo románské jazyky disponují jemnějším a složitějším systémem slovesných časů, který umožňuje přesněji rozlišovat předčasnost či následnost dějů. Jsou také jazyky, které neznají trpný rod. A některé, jako například bulharština, zase berou u tvaru slovesa v úvahu i to, zda mluvčí byl svědkem dané události nebo o ní ví jen z doslechu.

Navzdory těmto rozdílům však neurolingvistické výzkumy naznačují, že do jisté míry by některé mentální reprezentace mohly být nezávislé na jazyce. Při počítačovém modelování konverzačních lingvistických rozhraní proto obvykle pracujeme se společným jazykově nezávislým základem, u nějž lze doplňovat a modifikovat jednotlivé jazykové varianty.

Řečová a dialogové interakce mezi člověkem a strojem v různých kontextech a scénářích zkoumá již téměř dvě desetiletí pražská výzkumná laboratoř IBM. Příkladem její práce může být společný projekt GetHomeSafe, realizovaný s několika partnery pod záštitou Evropské komise. Jeho cílem je vyvinout systémy nové generace pro automobily, který bude fungovat nejen v pasivním modu (tedy odpovídat na dotazy řidiče), ale současně bude aktivně nabízet informace užitečné v kontextu cesty na základě profilu a předchozí historie uživatele. Takové systémy musí vybalancovat mnoho parametrů, především bezpečnost řidiče, čas potřebný ke splnění úlohy a samozřejmě i pohodlí a spokojenost uživatele.

Dalšími praktickými ukázkami jsou multimodální dialogové aplikace v chytrých telefonech: informační kiosky s mluvícím avatarem, vzdělávací nástroje (například aplikace na procvičování slov a frází v cizím jazyce), hlasová rozhraní určená pro trénink mozku u seniorů a podobně.

Rozvoj lingvistických rozhraní za mnohé vděčí právě rozšíření chytrých telefonů a tabletů. U přístrojů, které nemají klávesnici, se řeč (v kombinaci s grafickou modalitou) nabízí jako vhodná volba pro vyhledávání a přístup k informacím. Technologie využívající řeč a přirozený jazyk zrály v laboratořích už celé roky, ale až vzestup inteligentních osobních zařízení se zasloužil o jejich současnou popularitu na uživatelské straně.

Evropa má přirozené podmínky, které doslova vyzývají ke zkoumání oblasti jazykových technologií včetně automatizovaného překladu. Nové systémy a technologie budou muset respektovat a přizpůsobit se našemu kulturnímu dědictví, našim národním jazykům – a ne naopak! Dosud se lidé adaptovali počítačům, ale teď se časy mění.

Nová řešení se musí snadno uzpůsobit různým jazykovým prostředím, a tak éra přirozeného jazyka současně znamená také veliký boom pro lingvisty a multidisciplinární odborníky – počítačové vědce se znalostmi oboru strojového učení, psychology, statistiky a další experty. A tato nová vlna orientace IT na přirozený lidský jazyk nepochybně překračuje hranice Evropy a zasahuje celý svět.

Jan Kleindienst získal titul Ing. na ČVUT a Ph.D. na Matematicko-fyzikální fakultě Univerzity Karlovy v Praze. V letech 1992-1994 pracoval ve výzkumném centru IBM T.J. Watson Research Labs v USA. V letech 1994-1996 působil na Ústavu informatiky a výpočetní techniky Akademie věd v Praze. Do IBM nastoupil v roce 1997 a od roku 2008 vede pražskou výzkumnou laboratoř IBM.
Mezi jeho zájmy patří především multimodální kontextová architektura, systémy a prostředí, multimodální konverzační dialogy a aplikace rozpoznávání řeči. Je autorem a spoluautorem řady patentů, článků a několika knih.