ഒരു സിനിമയിലേക്കോ നാടകത്തിലേക്കോ അല്ല, മറിച്ച് ഒരു കമ്പ്യൂട്ടർ പ്രോഗ്രാമിനെ അഭിനയം പഠിപ്പിക്കാനായി നിങ്ങളെ ക്ഷണിച്ചാലോ? ചിരിക്കാനും കരയാനും ദേഷ്യപ്പെടാനും സങ്കടപ്പെടാനും ഒരു യന്ത്രത്തെ പരിശീലിപ്പിക്കുക. കേൾക്കുമ്പോൾ ഒരു സയൻസ് ഫിക്ഷൻ സിനിമയുടെ കഥ പോലെ തോന്നാം. എന്നാൽ ലോകത്തെ മുൻനിര ടെക് കമ്പനികൾ ഇപ്പോൾ ഇത്തരമൊരു കാര്യത്തിനാണ് പ്രൊഫഷണൽ നടന്മാരെ തേടുന്നത്.
തൊഴിൽ പരസ്യങ്ങളിലെ വിവരണം കൗതുകമുണർത്തുന്നതാണ്: “അഭിനയത്തിൽ കഴിവ്, വികാരങ്ങളെ തന്മയത്വത്തോടെ അവതരിപ്പിക്കാനുള്ള ശേഷി, ഒരു കഥാപാത്രത്തിന്റെ ശബ്ദവും സ്വഭാവവും സംഭാഷണത്തിലുടനീളം നിലനിർത്താനുള്ള കഴിവ്.” ഇങ്ങനെയൊരു യോഗ്യതയുള്ളവരെയാണ് ഓപ്പൺ എഐ (OpenAI) പോലുള്ള വമ്പന്മാർക്ക് വേണ്ടി ഡാറ്റ നൽകുന്ന ‘ഹാൻഡ്ഷേക്ക്’ എന്ന കമ്പനി ക്ഷണിക്കുന്നത്. എന്നാൽ വേദി തിയേറ്ററോ സിനിമാ സ്റ്റുഡിയോയോ അല്ല, മറിച്ച് ഒരു വീഡിയോ കോളിന്റെ മറുവശത്തിരിക്കുന്ന ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലാണ് നിങ്ങളുടെ സഹപ്രവർത്തകൻ.
എന്തിനാണ് എഐക്ക് ഒരു നടന്റെ സഹായം?
ഇന്നത്തെ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് മോഡലുകൾക്ക് സങ്കീർണ്ണമായ കണക്കുകൾ കൂട്ടാനും, കവിതയെഴുതാനും, കോഡ് തയ്യാറാക്കാനും സാധിക്കും. എന്നാൽ ഒരു സാധാരണ മനുഷ്യ സംഭാഷണത്തിലെ പരിഹാസമോ, സ്നേഹമോ, നിരാശയോ തിരിച്ചറിയാൻ അവ പലപ്പോഴും പരാജയപ്പെടുന്നു. ഈയൊരു പോരായ്മയെയാണ് സാങ്കേതിക വിദഗ്ദ്ധർ “ജാഗ്ഡ്” (jagged) എന്ന് വിശേഷിപ്പിക്കുന്നത്. അതായത്, ചില കാര്യങ്ങളിൽ അതിവിദഗ്ദ്ധവും എന്നാൽ മറ്റുചില അടിസ്ഥാനപരമായ കാര്യങ്ങളിൽ തീർത്തും അജ്ഞനുമായ അവസ്ഥ.
ഈ വിടവ് നികത്താനാണ് എഐ കമ്പനികൾ ഇപ്പോൾ മനുഷ്യന്റെ വൈകാരികമായ ഇടപെടലുകൾ തേടുന്നത്. വെറും ഡാറ്റ നൽകിയാൽ പോരാ, മനുഷ്യന്റെ സൂക്ഷ്മമായ ഭാവങ്ങളെയും സംഭാഷണത്തിലെ ഏറ്റക്കുറച്ചിലുകളെയും മനസ്സിലാക്കാൻ കഴിയുന്ന ഡാറ്റ വേണം. ഇതിനാണ് ഇംപ്രൊവൈസേഷൻ (improv) നടന്മാരെയും സ്കെച്ച് കോമഡി കലാകാരന്മാരെയും നാടക പ്രവർത്തകരെയും അവർ സമീപിക്കുന്നത്.
ഹാൻഡ്ഷേക്ക്, സ്കെയിൽ എഐ (Scale AI) പോലുള്ള കമ്പനികൾ ഈ പുതിയ ആവശ്യകത മുതലെടുത്ത് വലിയ വളർച്ചയാണ് നേടുന്നത്. കഴിഞ്ഞ വർഷം മാത്രം ഹാൻഡ്ഷേക്കിന്റെ ഡാറ്റാ ആവശ്യം മൂന്നിരട്ടിയായി വർധിച്ചു. ഡോക്ടർമാർ, അഭിഭാഷകർ, ശാസ്ത്രജ്ഞർ എന്നിങ്ങനെ വിവിധ മേഖലകളിലെ വിദഗ്ദ്ധരെ നേരത്തെ തന്നെ അവർ എഐ പരിശീലനത്തിനായി ഉപയോഗിച്ചിരുന്നു.
പരിശീലനം എങ്ങനെ?
ജോലിക്ക് തിരഞ്ഞെടുക്കപ്പെടുന്ന നടന്മാരെ വീഡിയോ കോളിലൂടെ മറ്റ് നടന്മാരുമായി ബന്ധിപ്പിക്കും. അവർക്ക് ഒരു ലളിതമായ സാഹചര്യമോ വിഷയമോ നൽകും. ഉദാഹരണത്തിന്, “ബസ് സ്റ്റോപ്പിൽ ബസ് കാത്തുനിൽക്കുന്ന രണ്ട് അപരിചിതർ” അല്ലെങ്കിൽ “ഒരു കടയിൽ വിലപേശുന്ന രംഗം”.
ഈ സാഹചര്യത്തിൽ നടന്മാർ സ്വാഭാവികമായി സംസാരിക്കുകയും അഭിനയിക്കുകയും വേണം. അവരുടെ സംഭാഷണങ്ങൾ, ശബ്ദത്തിലെ മാറ്റങ്ങൾ, ഭാവപ്രകടനങ്ങൾ എന്നിവയെല്ലാം എഐ മോഡൽ പഠനത്തിനായി രേഖപ്പെടുത്തും. പരസ്പരമുള്ള ഇടപെടലുകൾ കഴിവതും സ്വാഭാവികവും മനുഷ്യസഹജവുമാക്കുക എന്നതാണ് പ്രധാനം.
- വൈകാരിക അവബോധം: വികാരങ്ങളെ തിരിച്ചറിയാനും പ്രകടിപ്പിക്കാനും സാഹചര്യത്തിനനുസരിച്ച് ഭാവങ്ങൾ മാറ്റാനും കഴിയണം.
- സ്വാഭാവികത: സംഭാഷണങ്ങൾ യാന്ത്രികമാകാതെ, യഥാർത്ഥ ജീവിതത്തിലേതുപോലെ തോന്നണം.
- തന്മയത്വം: ഒരു കഥാപാത്രത്തെ പൂർണ്ണമായി ഉൾക്കൊണ്ട് സംസാരിക്കാനുള്ള കഴിവ്.
ഈ പരിശീലനത്തിലൂടെ, ലോകത്തിലെ ഏറ്റവും മികച്ച ലാംഗ്വേജ് മോഡലുകളുടെ (LLM) പരിമിതികൾ കണ്ടെത്താനും അവയെ മറികടക്കാനും സാധിക്കുമെന്നാണ് കമ്പനി അവകാശപ്പെടുന്നത്.
സംസാരിക്കുന്ന എഐയുടെ ഭാവി
ടെക്സ്റ്റ് രൂപത്തിൽ മറുപടി നൽകുന്നതിൽ നിന്ന് മാറി, മനുഷ്യരെപ്പോലെ സംസാരിക്കുന്ന എഐ അസിസ്റ്റന്റുകളിലേക്കുള്ള മാറ്റം നമ്മൾ കണ്ടുതുടങ്ങിയിട്ടുണ്ട്. ഓപ്പൺ എഐയുടെ ചാറ്റ്ജിപിടി വോയിസ് മോഡ്, ഇലോൺ മസ്കിന്റെ ഗ്രോക്ക് (Grok), ആന്ത്രോപിക്കിന്റെ ക്ലോഡ് (Claude) എന്നിവയെല്ലാം ഈ ദിശയിലേക്കുള്ള ചുവടുവെപ്പുകളാണ്. ഇവയെല്ലാം വിവിധ ശബ്ദങ്ങളും സംസാരിക്കുന്ന രീതികളും ഉപയോക്താക്കൾക്ക് നൽകുന്നുണ്ട്.
ഈ ശബ്ദങ്ങൾ കൂടുതൽ സ്വാഭാവികവും വൈകാരികവുമാക്കാനാണ് നടന്മാരിൽ നിന്ന് ഡാറ്റ ശേഖരിക്കുന്നത്. ഒരു ചോദ്യത്തിന് ഉത്തരം നൽകുമ്പോൾ അതിൽ സന്തോഷമുണ്ടോ, അതോ സംശയമുണ്ടോ എന്ന് ശബ്ദത്തിലൂടെ തിരിച്ചറിയാൻ കഴിയുന്ന ഒരു ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് ആണ് ഇവരുടെ ലക്ഷ്യം. ഇതിനെയാണ് മൾട്ടിമോഡൽ (multimodal) എഐ എന്ന് വിളിക്കുന്നത്. അതായത്, ടെക്സ്റ്റ്, ശബ്ദം, ചിത്രം, വീഡിയോ എന്നിവയെല്ലാം ഒരുപോലെ കൈകാര്യം ചെയ്യാൻ കഴിവുള്ള മോഡലുകൾ.
കലയും ആശങ്കയും: കേരളീയ പശ്ചാത്തലത്തിൽ
അഭിനയത്തിനും മിമിക്രിക്കും വലിയ പ്രാധാന്യമുള്ള കേരളം പോലുള്ള ഒരു സ്ഥലത്ത് ഈ വാർത്തയ്ക്ക് ഏറെ പ്രസക്തിയുണ്ട്. നമ്മുടെ കലാകാരന്മാർക്ക് ഇതൊരു പുതിയ തൊഴിൽ സാധ്യത തുറന്നു നൽകുന്നു. ശബ്ദാനുകരണത്തിലും ഭാവപ്രകടനത്തിലും അസാമാന്യ കഴിവുള്ള മലയാളി കലാകാരന്മാർക്ക് എഐ പരിശീലന രംഗത്ത് വലിയ അവസരങ്ങൾ ലഭിച്ചേക്കാം.
എന്നാൽ നാണയത്തിന് മറ്റൊരു വശമുണ്ട്. തങ്ങളുടെ കഴിവുകൾ പകർന്നുനൽകി പരിശീലിപ്പിക്കുന്ന ഈ ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ് നാളെ തങ്ങളുടെ തന്നെ തൊഴിലിന് ഭീഷണിയാകുമോ എന്ന ആശങ്കയും പലരും പങ്കുവെക്കുന്നു. ഇന്ന് പരിശീലനം നൽകുന്ന നടന്റെ ശബ്ദവും ഭാവങ്ങളും അതേപടി പകർത്താൻ ശേഷിയുള്ള ഒരു എഐ നാളെ സിനിമയിലോ പരസ്യത്തിലോ ഉപയോഗിക്കപ്പെട്ടാൽ യഥാർത്ഥ കലാകാരന്റെ അവസ്ഥയെന്താകും?
സ്വന്തം തൊഴിലിനെ ഇല്ലാതാക്കുന്ന ഒരു സാങ്കേതികവിദ്യയെ വളർത്താൻ കൂട്ടുനിൽക്കുകയാണോ തങ്ങൾ എന്ന ചിന്ത പല വിദഗ്ദ്ധരെയും അലട്ടുന്നുണ്ട്. ഇത് നടന്മാരുടെ മാത്രം പ്രശ്നമല്ല, എഴുത്തുകാർ, ഡിസൈനർമാർ, കോഡർമാർ തുടങ്ങി നിരവധി മേഖലകളിലുള്ളവർ ഇതേ ആശങ്കയിലാണ്.
യന്ത്രത്തിന് മനുഷ്യമുഖം നൽകുമ്പോൾ
സാങ്കേതികവിദ്യയുടെ വളർച്ച അനിവാര്യമാണ്. മനുഷ്യന്റെ കഴിവുകളെ അനുകരിക്കാനും മറികടക്കാനും ശേഷിയുള്ള എഐയുടെ മുന്നേറ്റം തടയാനാവില്ല. വികാരങ്ങളെ തിരിച്ചറിയാനും പ്രകടിപ്പിക്കാനും കഴിയുന്ന ഒരു എഐക്ക് നമ്മുടെ ജീവിതത്തിൽ ഒരുപാട് ഗുണകരമായ മാറ്റങ്ങൾ കൊണ്ടുവരാൻ സാധിക്കും. എന്നാൽ, മനുഷ്യന്റെ സർഗ്ഗാത്മകതയും കലയും ഡാറ്റയായി മാറ്റപ്പെടുമ്പോൾ ഉണ്ടാകുന്ന ധാർമ്മികവും തൊഴിൽപരവുമായ വെല്ലുവിളികളെ നാം കണ്ടില്ലെന്ന് നടിക്കാനാവില്ല.
കലയും കോഡും ഒരുമിക്കുന്ന ഈ പുതിയ ലോകത്ത്, യന്ത്രത്തിന് മനുഷ്യന്റെ ഭാവങ്ങൾ പകർന്നുകൊടുക്കുന്ന കലാകാരന്മാർ ഒരുപക്ഷേ ഭാവിയുടെ ശില്പികളായിരിക്കാം. അതോടൊപ്പം, തങ്ങൾ തുറന്നുവിടുന്നത് എന്താണെന്നതിനെക്കുറിച്ച് അവർക്ക് വ്യക്തമായ ബോധ്യവും ആവശ്യമാണ്.
