私はあなたがどちらかをする必要があると思います:
- データベースダンプから抽出された、ウィクショナリー内の既存の英語の単語のリストを解析します。
- データベースダンプ(タイトルだけでなく)をダウンロードして、自分で用語を抽出します。
オプションa)を試したのは、オプションb)が数GBのダウンロードを意味するからです。非常に簡単です。実際、好みの言語で独自のスクリプトを作成するためのベースとして使用できる簡単なJS実装が含まれています。
var baseURL="http://en.wiktionary.org/wiki/Index:English/"
var letters=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for(i=0;i<letters.length;i++) {
var letter = letters[i];
console.log(letter);
$.get(baseURL+letter, function(response) {
$(response).find('ol li a').each( function (k,v) { console.log(v.text) })
})
}
編集
私はこのテーマに非常に興味があったので、Pythonスクリプトを作成しました。誰かがそれが役に立つと思った場合に備えて:
from lxml.cssselect import CSSSelector
from lxml.html import fromstring
import urllib2
url = 'http://en.wiktionary.org/wiki/Index:English/'
letters = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for l in letters:
req = urllib2.Request(url+l, headers={'User-Agent' : "Magic Browser"})
con = urllib2.urlopen( req )
response = con.read()
h = fromstring(response)
sel = CSSSelector("ol li a")
for x in sel(h):
print x.text.encode('utf-8')
結果を自分でペーストビンに貼り付けますが、500kbの制限では許可されません