ヒンディー語 WSD に次のデータセットを使用しています。
एक बार वीरगढ़ राज्य की महारानी का हार कहीं खो गया । महारानी को हार बहुत प्रिय था । उन्होंने हार ढूंढने की बहुत कोशिश की पर वह नहीं मिला । हहहहलिएなりलिएलिएなりनीकोなりबहुतबहुतなりबहुतबहुत現計 यह संयोग था कि हार एक संन्यासी को मिला था । उसकेमनहहहहमेंप現。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . वह अपनी साधना में लीन रहा । तीनदिनबीतगए। . . . . . . . .. ールドज€कोपतपतなりचलचलचलतीनतीनहहなりपするपするथथです、तोउसनेउसनेकककक現होकカー、. पपपमैंहहहなりलौटलौटजजज現家जजकहतेकहतेसंनसंनसंन現होकहोकहोकहोकमृतमृतमृतगयगयगय इस पर राजा ने पूछा, 'तो आज चौथे दिन क्यों लाए?」इस पर सन्यासी नकहा, 'मुझे मौत का भय नहीं है । はじめまして हार जैसी तुच्छ चीज से मुझे कोई लगाव नहीं ।' यह उत्तर सत्तर सुनकर राजा लज्जित हो गया । महारानी को भी अपनी गलती का हसास हुआ । उसनहार बेचकर वह राशि गरीबों बंटवा दी ।
ニュージャージー州 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . अपनीतततअपनीकीयेबबなりरबकなりकするकするलिबसपहनेहुईऔऔऔऔऔकैकै गुडिया में बनाया गया था और तबसे लेकर आज तका रूप कई बदथथथययया याया गया था और तबसे लें सबसेनीलनीलबडीबडीबडीなりमीक現計
私の質問は、「ローカルコンテキストとコロケーションコンテキスト」を使用して、このサンプルデータセットから機能を抽出する方法です...ここであいまいな単語はहार(ネックレス)です..あいまいな単語の左から2つの単語と右から2つの単語を取得する方法. ..ヒンディー語のワードネットでは、हारという単語には2つの意味があります...私はAnaconda python --jupyter環境を使用しています..
私のコードはここにあります
#****************Word Sense Disambiguation in Hindi Language**********************
#*****************Tokenization and Stop Word removal******************************
import nltk
filename = "C:/Users/Lubna Khan/My-WSD/हार/ContextSenses002.txt"
file = open(filename, "r+", encoding="utf-16")
DisplayTextF = file.read()
#print(DisplayTextF)
tokens = nltk.word_tokenize(DisplayTextF)
#print(tokens)
token = [w for w in tokens]
#reading stop-word file which is in hindi text (Devnaagri script)
filename = "C:/Users/Lubna Khan/My-WSD/HindiStopWords.txt"
file = open(filename, "r+", encoding="utf-16")
sw = file.read()
sw_token = nltk.word_tokenize(sw)
stop_words = [w for w in sw_token]
filtered_sentence = []
for w in token :
if w not in stop_words :
filtered_sentence.append(w)
print(filtered_sentence)
#*************Feature Extraction***************
助けてください..よろしくお願いします