രണ്ട് മനുഷ്യർ തമ്മിലുള്ള വ്യാവഹാരിക സംഭാഷണങ്ങളെക്കുറിച്ചു ചർച്ച ചെയ്യുമ്പോൾ, ആധുനിക കാലത്തെ ഭാഷയുമായി ബന്ധപ്പെട്ട സംവാദങ്ങൾ ഏറെ പ്രാധാന്യമർഹിക്കുന്നുണ്ട് . നിർമിത ബുദ്ധിയും ഭാഷയും തമ്മിലുള്ള സങ്കർഷത്തിലധികവും, ഭാഷയുടെ ബലഹീനതയാണ് നമ്മൾ കാര്യക്ഷമമായി കാണുന്നത്. എ ഐ ഉപകരണങ്ങളും, ട്രാൻസ്ലേഷൻ ടൂൾസുകളും ഭാഷയുടെ സാംസ്കാരികമായ വളർച്ചയെ കാര്യമായി ബാധിച്ചിട്ടുണ്ടെന്ന് മനസ്സിലാക്കുന്നതോടെയാണ് എന്റെ ഈ അന്വേഷണം ആരംഭിക്കുന്നത്. ആപേക്ഷികമായി അഞ്ചാമത് ലോകത്തേറ്റവും കൂടുതലാളുകൾ സംസാരിക്കുന്ന അറബി ഭാഷയുടെ എ ഐ സംഘർഷങ്ങൾ എന്തെല്ലാമാണെന്ന തർക്കവിതർക്കങ്ങൾ ലോക അറബിക് ദിനമായി ആചരിക്കുന്ന ഡിസംബർ പതിനെട്ടിനോടനുബന്ധിച്ചു നടത്തിയ സമ്മേളനങ്ങളിൽ ചർച്ച ചെയ്തതാണ്. അറബി ഭാഷയുടെ എ ഐ സ്വാധീനം പദരൂപത്തിന്റെ ഭാഗമായിട്ടാണോ അതോ അതിനപ്പുറമുള്ള മറ്റെന്തെങ്കിലും കാരണം കൊണ്ടാണോ? ഞാൻ ഈ ലേഖനത്തിൽ അന്വേഷിക്കാൻ പോകുന്നത്.

Freya Pratty-യുടെ Arabic and AI: Why voice-activated tech struggles in the Middle ഈസ്റ്റ് എന്ന, 2007-ൽ പ്രസിദ്ധീകൃതമായ ഈ ലേഖനമാണ് എന്റെ അന്വേഷണത്തിന്റെ അവലംബം.
“ലോകത്താകമാനം 300 കോടിയോളം ജനങ്ങൾ അറബി സംസാരിക്കുന്നുണ്ട്. 1.5 ബില്യൺ ജനങ്ങളുടെ മതകീയ ഭാഷയാണ്. പക്ഷേ, ടെക്നോളജിക്ക് ഈ ഭാഷ ഇന്നും ദൂരെയാണെന്ന് അഭിപ്രായപ്പെട്ടത് , മിഡിൽ ഈസ്റ്റിൽ തന്റെ സഹപ്രവർത്തകരോടൊപ്പം പ്രാദേശികഭാഷകളെക്കൂടി ഗ്രഹിക്കാനുള്ള ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിന്റെ വാഗ്വിഭം വികസിപ്പിക്കാൻ ശ്രമിക്കുന്ന റാമല്ലയിലെ ബിർസെത് യൂണിവേഴ്സിറ്റിയിൽ കമ്പ്യൂട്ടർ സയന്റിസ്റ്റായ മുസ്തഫ ജറാറാണ് .അദ്ദേഹത്തിന്റെ ചില നിരീക്ഷണങ്ങളെയാണ് ഫ്രേയ പ്രാറ്റി ഈ ലേഖനത്തിന്റെ അടിസ്ഥാനമായി കാണുന്നത് .
മനുഷ്യ ഭാഷയുടെ വ്യാഖ്യാനം കമ്പ്യൂട്ടറുകൾക്ക് സാധ്യമാക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ശാഖയെയാണ് നാച്ച്വറൽ ലാംഗ്വേജ് പ്രൊസംസിഗ് (NLP) എന്ന പേരിലറിയപ്പെടുന്നത്. കമ്പ്യൂട്ടറുകൾ ഭാഷ പഠിക്കുന്നത് സാംഖ്യികമായാണ്(STATITICS). ഒരു വാക്യത്തിൽ പദത്തിന്റെ സ്ഥാനം, ഉപസർഗ്ഗം, പ്രത്യയം (SUFFIX) പോലുള്ള വ്യാകരണ സവിശേഷതകളെല്ലാം നിർണ്ണയിച്ചുകൊണ്ടുള്ള വിവരങ്ങളുടെ ഒരു സങ്കലനമാണ് കമ്പ്യൂട്ടറിന്റെ ഭാഷ .
ഒരു കമ്പ്യൂട്ടറിനെ ഭാഷ പഠിപ്പിക്കുമ്പോൾ പ്രധാനമായി നൽകപ്പെടുന്നത് വിവരങ്ങൾ (Data) ആണ്. പക്ഷേ, അറബിയിലേക്ക് വരുമ്പോൾ ഈ വിവരശേഖരണം കൂടുതൽ സങ്കീർണതയിലേക്ക് നയിക്കുമെന്നാണ് ജറാർ പറയുന്നത് . സോഷ്യൽ മീഡിയ വരുന്നതിന് മുമ്പ് ഒരു പ്രാദേശിക ഭാഷയും എഴുത്ത് രൂപത്തിലുണ്ടായിരുന്നില്ലന്നതാണ് അതിന്റെ കാരണം. കേവലമൊരു സംസാര ഭാഷ മാത്രമായിരുന്നു ആ കാലത്തെ മാധ്യമ മാർഗം . എന്നാൽ സോഷ്യൽ മീഡിയ പ്ലാറ്റ് ഫോമുകളിൽ അറബികൾ ഒരോരുത്തരും സംസാരിക്കുന്ന രീതിയിൽ തന്നെ എഴുത്താരംഭിച്ചതോടെ അവയുടെയെല്ലാം പ്രോഗ്രാമിംഗ് അനിവാര്യമായിത്തീർന്നു. ഇംഗ്ലീഷ്, ഫ്രഞ്ച്, സ്പാനിഷ് ഭാഷകൾക്ക് ശേഷമാണ് അറബിഭാഷ ഇന്റർനെറ്റ് ലോകത്തെത്തുന്നത്. അതുകൊണ്ട് തന്നെ മറ്റു ഭാഷകളിൽ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസിനെ കൈകാര്യം ചെയ്യുന്നവരേക്കാൾ കുറഞ്ഞ ഡാറ്റ മാത്രമാണ് അറബിക്ക് ഇന്ന് ലഭ്യമായിട്ടുള്ളത്.
കമ്പ്യൂട്ടറിനെ അറബി പഠിപ്പിക്കുക എന്നത് സങ്കീർണ്ണമാകുന്നത് വിവരങ്ങളുടെ (Data) കുറവിന്റെ അടിസ്ഥാനത്തിൽ മാത്രമല്ല. അനേകാർത്ഥങ്ങളും പ്രയോഗവിത്യസ്തതകളുമുള്ള അറബി ഭാഷയുടെ അടിസ്ഥാന സ്വഭാവം തന്നെ ഇതിന് മറ്റൊരു രീതിയിൽ പ്രതിസന്ധിയാകുന്നുണ്ട്.
ഈജിപ്ത്യൻ എൻ.എൽ.പി റിസർച്ചർ അലി ഫറാഗി ഈ പ്രതിസന്ധിക്കുള്ള ചില പ്രധാന കാരണങ്ങളായി ചൂണ്ടിക്കാണിക്കുന്നത് വ്യക്തി, സ്ഥലം, കമ്പനികൾ തുടങ്ങിയ പേരുകൾ പറയുമ്പോൾ ആദ്യാക്ഷരത്തിനുണ്ടാക്കുന്ന വല്യക്ഷരസവിശേഷത (Capitalisation) അറബിയിലില്ല എന്നതാണ് . വരികളിൽ സ്ഥാനമാറ്റം സംഭവിക്കുമ്പോൾ അക്ഷരങ്ങൾക്ക് രൂപമാറ്റം വരുന്നതും മറ്റൊരു വിഘ്നമായി ഗവേഷകർ പറയുന്നു. മാത്രമല്ല, വലിയ അർത്ഥമുള്ള വാക്യം പോലും ചെറിയ വാക്കിലൊതുക്കി പറയാനാവുന്നത് അറബിയുടെ ആധുനികവൽകരണത്തിന് തടസ്സമാണ്. ഇത് ഡീകോഡിംഗ് സമയത്ത് കമ്പ്യൂട്ടറിന് സന്നിഗ്ദ്ധത സൃഷ്ടിക്കുന്നു.
അറബിയിലെ ഒരു സങ്കരപദം (Complex word) ഇംഗ്ലീഷിൽ മൂന്നായി വിഭജിക്കാനാവും . അതുപോലെത്തന്നെ ഒരു സങ്കരപദം പല രീതികളിലൂടെ വിശദീകരണത്തിനും സാധ്യമാണെന്നിരിക്കെ ഇത് സാങ്കേതിക ഭാഷയിൽ കൂടുതൽ പ്രശ്നം സൃഷ്ടിക്കുന്നു. ഉദാഹരണത്തിന് ‘അവൻ അവരെ കണ്ടു (He saw them)’ എന്ന വാക്യത്തിന് ഇംഗ്ലീഷിൽ മൂന്ന് വാക്കുകൾ വ്യത്യസ്തമായി തന്നെ ഉണ്ടാകും. ആഖ്യ(Subject / He), ക്രിയ (verb / Killed), ലക്ഷ്യം ( Object /them). പക്ഷേ അറബിയിലിത് (قتلهم) എന്ന ഒറ്റവാക്കിലൊതുങ്ങുന്നു.
മറ്റൊരു ഉദാഹരണം ഫർഗാലി പറയുന്നുണ്ട്. വഫിയ് (وفي) പോലോത്ത പദങ്ങൾ ‘വിശ്വസ്തർ’ എന്ന അർത്ഥത്തിൽ പ്രയോഗിക്കും. ഉം (and) എന്നർത്ഥമുള്ള ‘വ’ (و) യും , ‘in’ എന്നർത്ഥത്തിലുള്ള ഫീ (في) യും ചേർന്ന വാക്കായും അതിനെ ഗണിക്കാം . ഒന്നിലൊതുങ്ങുന്നതോ ഒന്നിലധികം വഴികളിലൂടെ വായിക്കപ്പെടാവുന്നതോ ആയ ഇത്തരം പ്രയോഗങ്ങൾ അറബി ഭാഷയെ എൻ.എൽ.പി യിൽ വളരെ സങ്കീർണ്ണമാക്കുന്നു.
വാണിജ്യ ലക്ഷ്യത്തോടെ പല പ്രൊജക്ടുകളും ഇപ്പോൾ നടക്കുന്നുണ്ട്. കഴിഞ്ഞ വർഷം അബൂദാബി ഗവൺമെന്റിന്റെ ‘അബൂദാബി മീഡിയ’ അറബിയിലുള്ള ആദ്യ ആർട്ടിഫിഷ്യൽ ഇന്റലിലജന്റ് വാർത്താ അവതാരകനെ നിർമിച്ചു കൊണ്ടിരിക്കുകയാണെന്ന് പ്രഖ്യാപിച്ചിരുന്നു. ജോർദാനിലെ മൗദൂദ് എന്ന കമ്പനി, അലെക്സ, സിറി പോലെ അറബിയിലെ പ്രാദേശിക ഭാഷകളെല്ലാമുൾക്കൊള്ളുന്ന വിർച്വൽ അസിസ്റ്റന്റ്, സൽമയുടെ പ്രവർത്തനങ്ങൾ തുടങ്ങിയതയും അറിയിച്ചു. അറബ് ലോകത്തെ ഈ വാർത്തകൾ നമുക്ക് പുതു പ്രതീക്ഷകൾ നൽകുന്നതാണ്. ഈ ശ്രമങ്ങളൊന്നും വാണിജ്യ രംഗത്തേക്ക് മാത്രം പരിമിതമല്ല. ലബനാനിലെ അമേരിക്കൻ യൂണിവേഴസിറ്റി ഓഫ് ബെയ്റൂത്തിലെ ഒരു സംഘം ഗവേഷകർ അറബിക് എൻ.എൽ.പിയെ സോഷ്യൽ മീഡിയയിലും ഉപയോഗപ്പെടുത്താനുള്ള ശ്രമങ്ങളിലാണ്. ഇന്ന് ഇംഗ്ലീഷ് ഭാഷക്കെല്ലാം സോഷ്യൽ മീഡിയയിൽ ലഭ്യമാകുന്ന Al സേവനങ്ങൾ അറബിയിലും ലഭ്യമാക്കാനാവുമെന്ന് ഇവർ വിശ്വസിക്കുന്നു.
ജറാർ പറയുന്നത് , പ്രാദേശിക ഭാഷയുടെ (vernacular) ഘട്ടം കഴിഞ്ഞാൽ പിന്നെയുള്ളത് , സ്റ്റാറ്റിറ്റിക്സുകൾ വെച്ചുള്ള പ്രവചനങ്ങൾ നടത്തുന്നതിന് പകരം, ഭാഷയെ യഥാർത്ഥമായി മനസ്സിലാക്കുന്നതിന് കമ്പ്യൂട്ടറിനെ പര്യാപ്തമാക്കുക എന്നതാണ്. ഒരാൾ കമ്പ്യൂട്ടറിനോട് ” ഇന്ന് എനിക്ക് പ്രേത്യേകിച്ചൊരു പണിയില്ല ,അവധിയാണ് ” എന്ന് പറഞ്ഞാൽ അത് വിവർത്തനം ചെയ്ത് തരും. “ഞാനെന്ത് ചെയ്യണം ?” എന്ന് ചോദിച്ചാൽ അത് പറയില്ല. നൽകപ്പെട്ട വിവരങ്ങളിൽ പ്രവർത്തിക്കും എന്നല്ലാതെ അർത്ഥമറിഞ്ഞു കൊണ്ടുള്ള പ്രവർത്തനമോ മറുപടിയോ കമ്പ്യൂട്ടർ തരില്ല എന്ന് സാരം . അടുത്ത ഘട്ടത്തിൽ ഈ പ്രശ്നത്തെ മറികടക്കണമെന്ന് ജാറാർ പറയുന്നു.ഭാവിയിൽ ഇവ ഏതൊരു ചോദ്യത്തിനും ഉത്തരം നൽകുന്ന തലത്തിലേക്ക് വികസിക്കും.
അറബി സംസാരിക്കുന്നവർ പ്രാദേശികമായി സംസാരിക്കുന്ന ഭാഷാ സംവിധാനങ്ങളാണ് അതിന്റെ ഉപഭാഷകൾ അല്ലെങ്കിൽ പ്രാദേശിക ഭാഷകൾ എന്ന രണ്ടു വിഭജനങ്ങൾ സാധ്യമാക്കുന്നത്. ഭൂമിശാസ്ത്രപരമായ ദൂരവുമായി പലപ്പോഴും ബന്ധപ്പെട്ടിരിക്കുന്ന പരസ്പര ധാരണയുടെ അളവുകൾ ഉള്ളതും പരസ്പരം മനസ്സിലാക്കാൻ കഴിയാത്തതുമായ ചില അറബി പദങ്ങളും പ്രയോഗങ്ങളും പ്രദേശങ്ങളിൽ നിന്ന് പ്രദേശത്തേക്ക് വരുമ്പോൾ കാണുന്നുണ്ട്.
സാമൂഹ്യ ഭാഷാ ശാസ്ത്രത്തിൻ്റെ കാര്യത്തിൽ, ഔപചാരികമായ ക്ലാസിക്കൽ അറബിയും കൂടുതലും എഴുത്തിലോ തയ്യാറാക്കിയ സംഭാഷണത്തിലോ കാണപ്പെടുന്നതുമായ, ദൈനംദിന സംസാര സാഹചര്യങ്ങൾക്കായി വ്യാപകമായി വ്യതിചലിക്കുന്ന പ്രാദേശിക ഭാഷകളും തമ്മിൽ ഒരു പ്രധാന വ്യത്യാസമുണ്ട്. രണ്ടാമത്തേത് ഓരോ രാജ്യത്തിനും, സ്പീക്കറിൽ നിന്ന് സ്പീക്കറിലേക്കുമുള്ള ആശ്രയിക്കൽ കാരണമായി വ്യത്യാസപ്പെടുന്നു. പല അറബ് രാജ്യങ്ങളിലും ഇത് അർത്ഥമാക്കുന്നത് “സ്ലാംഗ്” അഥവാ ആമിയ്യ (പൊതുവായത്) എന്ന പോയിന്റിലേക്കാണ്. ക്ലാസ്സിക്കൽ അറബിയുടെ വ്യവഹാരങ്ങളെയാണ് ഇത് കാര്യമായി ബാധിക്കുന്നതെന്ന് Radwan Boubaia തന്റെ The Battle for Survival: The War on Standard Arabic എന്ന ലേഖനത്തിൽ പറയുന്നുണ്ട്.
ക്ലാസിക്കൽ അറബിയും സംഭാഷണ അറബിയും തമ്മിലുള്ള ഏറ്റവും വലിയ വ്യത്യാസം വ്യാകരണത്തിലാണെന്നും അദ്ദേഹം പറയുന്നുണ്ട് .വ്യത്യസ്തവും കർശനവുമായ പദ ക്രമം,ഒരു പുതിയ സംവിധാനത്തിൻ്റെ പരിണാമത്തോടൊപ്പം വ്യാകരണ മാനസികാവസ്ഥയുടെ മുമ്പത്തെ വ്യവസ്ഥയുടെ നഷ്ടം ,ചില അവശിഷ്ട ഇനങ്ങളിലൊഴികെ, സ്ത്രീലിംഗ ബഹുവചനങ്ങളുടെ വ്യതിരിക്തമായ സംയോജനവും നഷ്ടപ്പെടുകയും ചെയ്യുന്നു തുടങ്ങിയ കാരണങ്ങൾ അദ്ദേഹം തന്റെ വാദങ്ങൾക്ക് നിരത്തുന്നുണ്ട് . ഒരർത്ഥത്തിൽ ഇത് ശരിയാണെന്ന് ഊഹിക്കാം, കാരണത്തെ അറബിക് സർക്കിളുകളിൽ ഇപ്പോൾ ഉപയോഗിക്കുന്ന സംഭാഷണ രീതിയിലുള്ള വ്യാകരണ തെറ്റുകൾ ഒരു അനറബിക്ക് പോലും കണ്ടെത്തൽ അനായാസമാണ് .
Persecution of classical Arabic എന്ന ലേഖനത്തിൽ അഷ്റഫ് സുഹലി ചൂണ്ടിക്കാണിക്കുന്നത് ഈ രണ്ട് ഭാഷകളും എഴുതുമ്പോൾ പിറക്കുന്ന വിരക്തിയെകുറിച്ചാണ്. ഈ രണ്ട് കാര്യങ്ങളിലും എ ഐ സംവിധാനത്തിന് അറബിയെ മറികടക്കാൻ ഇനിയും അനേകം തരണം ചെയ്യേണ്ടിവരുമെന്നാണ് ജെറാർ പറയുന്നത്. Contemporary Standard Arabic and its traditional origins, Colonialism… and the fight against classical Arabic, ഫാത്തിമ അൽ ബുസൈദിയുടെ ARABIC IN FOREIGN LANGUAGE PROGRAMMES: DIFFICULTIES and challenges ലേഖനങ്ങളിലും ഈ തർക്ക വിതർക്കം ചർച്ച ചെയ്യുന്നുണ്ട് .
ഈ ചർച്ചകൾക്ക് ഒരു ആമുഖം മാത്രമാണ് ഈ ലേഖനം. പറഞ്ഞു വരുന്നത്, എ ഐ എന്ന സങ്കല്പം അറബി ഭാഷകളുടെ നിലനിൽപ്പിനെ സാധൂകരിക്കുന്നതിന് വിഘ്നമാവുന്നില്ലെന്നും അതിലൂടെ മാത്രമേ അറബിയെ തകർക്കാം എന്ന പാശ്ചാത്യ ചിന്തകൾക്ക് ഒരേസമയം ഒരു മറുപടിയും അതേ സമയം പടിഞ്ഞാറൻ മാതൃകയിലുള്ള വികസിത രാജ്യവുമായിട്ടുള്ള തെളിവും നൽകാൻ സാധിക്കും. അറബിയെ പെട്ടന്ന് തന്നെ എ ഐ വത്കരിക്കാൻ സാങ്കേതിക വിദ്യ ഒന്നും ഇത് വരെ കണ്ടെത്തിയില്ലെ്ന്ന് അർത്ഥം .