നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി) ഭാഷാശാസ്ത്രം[1], കമ്പ്യൂട്ടർ സയൻസ്[2], ഇൻഫർമേഷൻ എഞ്ചിനീയറിംഗ്, ആർട്ടിഫിഷ്യൽ ഇന്റലിജൻസ്[3] എന്നിവയുടെ ഒരു ഉപഫീൽഡാണ്. കമ്പ്യൂട്ടറുകളും മനുഷ്യന്റെ ഭാഷകളും തമ്മിലുള്ള ഇടപെടലുകളുമായി ബന്ധപ്പെട്ട, പ്രത്യേകിച്ചും വലിയ അളവിൽ സ്വാഭാവിക ഭാഷാ ഡാറ്റ [4]പ്രോസസ്സ് ചെയ്യുന്നതിനും വിശകലനം ചെയ്യുന്നതിനും കമ്പ്യൂട്ടറുകളെ എങ്ങനെ പ്രോഗ്രാം ചെയ്യാം എന്നതിനെ കുറിച്ച ഉള്ള പഠനം ആണ് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ് (എൻഎൽപി). എൻഎൽപി മനുഷ്യ ഭാഷകളിൽ നിന്ന് വായിക്കാനും മനസിലാക്കാനും അർത്ഥം നേടാനുമുള്ള കഴിവ് മെഷീനുകൾക്ക് നൽകുന്നു. ഡാറ്റ[4] ലഭിക്കുന്നതിന്റെ മെച്ചപ്പെടുത്തലുകളും കമ്പ്യൂട്ടേഷണൽ പവറിന്റെ [5]വർദ്ധനവും കാരണം ഇന്ന് എൻഎൽപി കുതിച്ചുയരുന്നു. ആരോഗ്യ സംരക്ഷണം[6], മാധ്യമങ്ങൾ[7], ധനകാര്യം[8], മാനവ വിഭവശേഷി[9] തുടങ്ങിയ മേഖലകളിൽ അർത്ഥവത്തായ ഫലങ്ങൾ നേടാൻ പരിശീലകരെ ഇത് സഹായിക്കുന്നു.
ഒരു വെബ് പേജിൽ ഉപഭോക്തൃ സേവനം നൽകുന്ന ഒരു ഓട്ടോമേറ്റഡ് ഓൺലൈൻ അസിസ്റ്റന്റ് .ഇത് നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിങ്ങിന്റെ ഒരു ഉദാഹരണം ആണ് .
ഉദാഹരണങ്ങൾ
ആളുകൾ ദിവസവും ഉപയോഗിക്കുന്ന എൻ എൽ പിയുടെ ചില ഉദാഹരണങ്ങൾ ഇവയാണ്:
സിരി,[15] അലക്സാ[16] അല്ലെങ്കിൽ ഗൂഗിൾ അസിസ്റ്റന്റ്[17]
സാധാരണ എൻഎൽപി കാര്യങ്ങൾ
നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ സാധാരണയായി ഗവേഷണം ചെയ്യപ്പെടുന്ന ചില ജോലികളുടെ പട്ടികയാണ് ഇനിപ്പറയുന്നത്. ഈ ടാസ്ക്കുകളിൽ ചിലതിന് നേരിട്ടുള്ള യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകൾ ഉണ്ട്, മറ്റുള്ളവ സാധാരണയായി വലിയ ടാസ്ക്കുകൾ പരിഹരിക്കുന്നതിന് സഹായിക്കുന്ന സബ്ടാസ്കുകളായി വർത്തിക്കുന്നു.നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗിൽ ജോലികൾ പരസ്പരം ബന്ധപ്പെട്ടിരിക്കുന്നുവെങ്കിലും, സൗകര്യാർത്ഥം അവ വിഭാഗങ്ങളായി തിരിക്കാം.
ഗൂഗിൾ ട്രാൻസ്ലേറ്റ് ഒരു നാച്ചുറൽ ലാംഗ്വേജ് പ്രോസസ്സിംഗ്ഇന്റെ ഉദാഹരണം ആണ്
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, സംഭാഷണത്തിന്റെ വാചക പ്രാതിനിധ്യം നിർണ്ണയിക്കുക.സ്വാഭാവിക സംഭാഷണത്തിൽ തുടർച്ചയായ പദങ്ങൾക്കിടയിൽ താൽക്കാലികമായി നിർത്താനാകില്ല, അതിനാൽ സംഭാഷണ വിഭജനം (സ്പീച് സെഗ്മെന്റഷന്)[20] സംഭാഷണ തിരിച്ചറിയലിന്റെ ഒരു ഉപവിഭാഗമാണ്. മിക്ക സംസാര ഭാഷകളിലും, കോ ആർട്ടിക്കലഷൻ[21] എന്ന് വിളിക്കപ്പെടുന്ന ഒരു പ്രക്രിയയിൽ തുടർച്ചയായ അക്ഷരങ്ങളെ പ്രതിനിധീകരിക്കുന്ന ശബ്ദങ്ങൾ പരസ്പരം കൂടിച്ചേരുന്നു, അതിനാൽ അനലോഗ് സിഗ്നലിനെ[22] വ്യതിരിക്ത പ്രതീകങ്ങളിലേക്ക് പരിവർത്തനം ചെയ്യുന്നത് വളരെ ബുദ്ധിമുട്ടുള്ള പ്രക്രിയയാണ് .
ഒരു വ്യക്തിയുടെയോ സംസാരിക്കുന്ന ആളുകളുടെയോ ശബ്ദ ക്ലിപ്പ് നൽകി, അത് വാക്കുകളായി വേർതിരിക്കുക. സ്പീച്ച് റെക്കഗ്നിഷന്റെ[19] ഒരു സബ് ടാസ്ക്, സാധാരണ അവയുമായി ഇതിനെ ഗ്രൂപ്പുചെയ്യുന്നു.
തുടർച്ചയായ വാചകത്തിന്റെ ഒരു ഭാഗം പ്രത്യേക പദങ്ങളായി വേർതിരിക്കുക. ഇംഗ്ലീഷ് [25]പോലുള്ള ഒരു ഭാഷയെ സംബന്ധിച്ചിടത്തോളം ഇത് വളരെ തുച്ഛമാണ്, കാരണം വാക്കുകൾ സാധാരണയായി ഇടങ്ങളാൽ വേർതിരിക്കപ്പെടുന്നു. എന്നിരുന്നാലും, ചൈനീസ്[26], ജാപ്പനീസ്[27], തായ് [28]തുടങ്ങിയ ചില ലിഖിത ഭാഷകൾ അത്തരം രീതിയിൽ പദത്തിന്റെ അതിരുകൾ അടയാളപ്പെടുത്തുന്നില്ല, കൂടാതെ ആ ഭാഷകളിൽ വാചക വിഭജനം ഭാഷയിലെ പദങ്ങളുടെ പദാവലിയെക്കുറിച്ചുള്ള അറിവ് ആവശ്യമുള്ള ഒരു പ്രധാന കാര്യമാണ് . ഡാറ്റാ മൈനിംഗിൽ[29] ബാഗ് ഓഫ് വേഡ്സ് (BOW)[30] സൃഷ്ടിക്കൽ പോലുള്ള സന്ദർഭങ്ങളിലും ചിലപ്പോൾ ഈ പ്രക്രിയ ഉപയോഗിക്കുന്നു.
തന്നിരിക്കുന്ന വാക്യത്തിന്റെ പാഴ്സ് ട്രീ[33] (വ്യാകരണ വിശകലനം) നിർണ്ണയിക്കുക. . രണ്ട് പ്രാഥമിക തരം പാഴ്സിംഗ് ഉണ്ട്: ഡിപൻഡൻസി പാഴ്സിംഗ്, കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ്. ഡിപൻഡൻസി പാഴ്സിംഗ് ഒരു വാക്യത്തിലെ വാക്കുകൾ തമ്മിലുള്ള ബന്ധത്തെ കേന്ദ്രീകരിക്കുന്നു , എന്നാൽ കോൺസ്റ്റിട്യൂൺസി പാഴ്സിംഗ് ഒരു പ്രോബബിലിസ്റ്റിക് കോൺടെക്സ്റ്റ്-ഫ്രീ[34] വ്യാകരണം (പിസിഎഫ്ജി) ഉപയോഗിച്ച് പാഴ്സ് ട്രീ നിർമ്മിക്കുന്നതിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു.
ലെക്സിക്കൽ സെമാന്റിക്സ് (സന്ദർഭത്തിലെ വ്യക്തിഗത പദങ്ങളുടെ)
ടെക്സ്റ്റ് അനാലിസിസ്[39] ടെക്നിക്കുകൾ ഉപയോഗിച്ച് ടെക്സ്റ്റ് ഡാറ്റയ്ക്കുള്ളിലെ വികാരങ്ങളുടെ[40] (പോസിറ്റീവ്, നെഗറ്റീവ്, ന്യൂട്രൽ) വ്യാഖ്യാനവും വർഗ്ഗീകരണവുമാണ് സെന്റിമെന്റ് വിശകലനം.
വാക്കുകളെ വ്യക്തിഗത മോർഫീമുകളായി വേർതിരിച്ച് മോർഫീമുകളുടെ ക്ലാസ് തിരിച്ചറിയുന്ന പ്രക്രിയയെയാണ് മോർഫോളജിക്കൽ സെഗ്മെന്റേഷൻ എന്ന് പറയുന്നത് .ഈ ടാസ്കിന്റെ ബുദ്ധിമുട്ട് പരിഗണിക്കപ്പെടുന്ന ഭാഷയുടെ രൂപശാസ്ത്രത്തിന്റെ[44] (പദങ്ങളുടെ ഘടന) സങ്കീർണ്ണതയെ ആശ്രയിച്ചിരിക്കുന്നു.
ഒരു വാചകം നൽകിയാൽ, ഓരോ വാക്കിനും സംഭാഷണത്തിന്റെ ഭാഗം നിർണ്ണയിക്കുക. പല വാക്കുകൾക്കും, പ്രത്യേകിച്ച് പൊതുവായവയ്ക്ക്, സംഭാഷണത്തിന്റെ ഒന്നിലധികം ഭാഗങ്ങളായി പ്രവർത്തിക്കാൻ കഴിയും. ഉദാഹരണത്തിന്, "മണി" എന്ന ഒരു നാമം (മണി എത്രയായി ) അല്ലെങ്കിൽ (സ്കൂളിൽ മണി അടിച്ചു ) എന്ന് ആകാം. ചില ഭാഷകൾക്ക് മറ്റുള്ളവയേക്കാൾ അവ്യക്തതയുണ്ട്. ചൈനീസ് അത്തരം അവ്യക്തതയ്ക്ക് സാധ്യതയുള്ള ഒരു ഭാഷയാണ്, കാരണം ഇത് വാക്കാൽ പ്രവചിക്കുന്ന സമയത്തുള്ള ഒരു ഭാഷയാണ് .
യഥാർത്ഥ ലോക ആപ്ലിക്കേഷനുകളിൽ എൻഎൽപി പ്രയോഗിക്കാൻ ഈ ലൈബ്രറികൾ സഹായിക്കുന്നു.
അപ്പാച്ചെ ഓപ്പൺഎൻഎൽപി:[48][49]ടോക്കനൈസറുകൾ[50], വാക്യ വിഭജനം[51], സംഭാഷണത്തിന്റെ ഭാഗം ടാഗുചെയ്യൽ(പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്)[45], എന്റിറ്റി എക്സ്ട്രാക്ഷൻ[37], ചങ്കിംഗ്, പാഴ്സിംഗ്[52], കോർഫറൻസ് റെസലൂഷൻ എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു മെഷീൻ ലേണിംഗ് ടൂൾകിറ്റ്.
നാച്ചുറൽ ലാംഗ്വേജ് ടൂൾകിറ്റ് (എൻഎൽടികെ)[53][54]: വാചകം പ്രോസസ് ചെയ്യുന്നതിനും തരംതിരിക്കുന്നതിനും ടോക്കണൈസ് ചെയ്യുന്നതിനും സ്റ്റെമിംഗ്[55], പാഴ്സിംഗ് [52]എന്നിവയ്ക്കും അതിലേറെ കാര്യങ്ങൾക്കുമായി മൊഡ്യൂളുകൾ നൽകുന്ന ഒരു പൈത്തൺ[56] ലൈബ്രറി,
സ്റ്റാൻഫോർഡ് എൻഎൽപി:[57] പാർട്ട്-ഓഫ്-സ്പീച് ടാഗിംഗ്[45], പേരുള്ള എന്റിറ്റി റെക്കഗ്നൈസർ,[37] കോർഫറൻസ് റെസല്യൂഷൻ സിസ്റ്റം[58], സെന്റിമെന്റ് അനാലിസിസ് [59]എന്നിവയും അതിലേറെയും നൽകുന്ന എൻഎൽപി ഉപകരണങ്ങളുടെ ഒരു സ്യൂട്ട്.
മല്ലെറ് (MALLET[60][61] ): ലേറ്റന്റ് ഡിറിക്ലെറ്റ് അലോക്കേഷൻ[62], ഡോക്യുമെന്റ് ക്ലാസിഫിക്കേഷൻ[63], ക്ലസ്റ്ററിംഗ്, ടോപ്പിക് മോഡലിംഗ്[64], ഇൻഫർമേഷൻ എക്സ്ട്രാക്ഷൻ[65] എന്നിവയും അതിലേറെയും നൽകുന്ന ഒരു ജാവ [66]പാക്കേജ്.
അവലംബം
↑"Linguistics", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-15, retrieved 2020-08-22
↑"Computer science", Wikipedia (in ഇംഗ്ലീഷ്), 2020-08-13, retrieved 2020-08-22