いくつかのニュースポータルからニュースを受信するアプリがあります。このニュースのキーワードを見つけて特別なテーブルに保存したいのですが、これらのキーワードを見つける方法がわかりません。
コードは5分ごとに実行されるため、多くのサーバーソースを使用し、重いコードを使用したくないためです。
私自身、テキストを単語ごとに分割して数え、上位5語を取得するという古い考えがありますが、ほとんどの場合、キーワードは「a」や「the」などのようにする必要があります。
助言がありますか?
いくつかのニュースポータルからニュースを受信するアプリがあります。このニュースのキーワードを見つけて特別なテーブルに保存したいのですが、これらのキーワードを見つける方法がわかりません。
コードは5分ごとに実行されるため、多くのサーバーソースを使用し、重いコードを使用したくないためです。
私自身、テキストを単語ごとに分割して数え、上位5語を取得するという古い考えがありますが、ほとんどの場合、キーワードは「a」や「the」などのようにする必要があります。
助言がありますか?
Gutenberg Project( http://www.gutenberg.org/files/29765/29765-8.txt )からWebster's Unabridged Dictionaryなどの英語辞書をダウンロードし、代名詞と前置詞を解析して、結果をリストとして使用できます。あなたのカウントで無視する単語の。
上記に基づく迅速で汚い構文解析実験により、次のリストが提供されました。
AMONGST A ABOON AGAINST AMID
AT ATAFTER BATING BEHITHER BESIDE
BESIDES BETWIXT DURANTE DURING EMFORTH
FOREBY FORENENST FROM HE HERS
HERSELF HIMSELF HIMSELVE HIR HIS
HO I ICH IDEM IK
INTO INWITH IT ITSELF MALGRE
MYSELF MYSELVEN O' OF ONESELF
ONTO OURSELVES OUTCEPT OUTTAKE PER
REGARDING RESPECTING SENZA SHE SITH
THAT THEM THEMSELVES THESE THILK
THOSE THRU THURGH THY THYSELF
UMBE UNNEAR UPON UPTILL US
VERSUS WE WHATE'ER WHATEVER WHATSOEVER
WHICH WHO WHOEVER WHOM WHOMSOEVER
WHOSE WHOSESOEVER WHOSO WHOSOEVER WITHOUTEN
YER YMEL YOU YOURS YOURSELF
YOW
前述のように、改良が必要です...