0

いくつかのニュースポータルからニュースを受信するアプリがあります。このニュースのキーワードを見つけて特別なテーブルに保存したいのですが、これらのキーワードを見つける方法がわかりません。

コードは5分ごとに実行されるため、多くのサーバーソースを使用し、重いコードを使用したくないためです。

私自身、テキストを単語ごとに分割して数え、上位5語を取得するという古い考えがありますが、ほとんどの場合、キーワードは「a」や「the」などのようにする必要があります。

助言がありますか?

4

2 に答える 2

1

Gutenberg Project( http://www.gutenberg.org/files/29765/29765-8.txt )からWebster's Unabridged Dictionaryなどの英語辞書をダウンロードし、代名詞と前置詞を解析して、結果をリストとして使用できます。あなたのカウントで無視する単語の。

上記に基づく迅速で汚い構文解析実験により、次のリストが提供されました。

AMONGST         A               ABOON           AGAINST         AMID            
AT              ATAFTER         BATING          BEHITHER        BESIDE          
BESIDES         BETWIXT         DURANTE         DURING          EMFORTH         
FOREBY          FORENENST       FROM            HE              HERS            
HERSELF         HIMSELF         HIMSELVE        HIR             HIS             
HO              I               ICH             IDEM            IK              
INTO            INWITH          IT              ITSELF          MALGRE          
MYSELF          MYSELVEN        O'              OF              ONESELF         
ONTO            OURSELVES       OUTCEPT         OUTTAKE         PER             
REGARDING       RESPECTING      SENZA           SHE             SITH            
THAT            THEM            THEMSELVES      THESE           THILK           
THOSE           THRU            THURGH          THY             THYSELF         
UMBE            UNNEAR          UPON            UPTILL          US              
VERSUS          WE              WHATE'ER        WHATEVER        WHATSOEVER      
WHICH           WHO             WHOEVER         WHOM            WHOMSOEVER      
WHOSE           WHOSESOEVER     WHOSO           WHOSOEVER       WITHOUTEN       
YER             YMEL            YOU             YOURS           YOURSELF        
YOW

前述のように、改良が必要です...

于 2013-01-27T21:03:14.653 に答える
1

自由に利用できる本を含むNaturalLanguageToolkit( NLTK )をチェックしてください。これは少し自由形式の質問ですが、それで始められます。

于 2013-01-27T19:09:47.780 に答える