対数線形モデルをトレーニングするための既存のパッケージが Python にあるかどうかは誰にもわかりませんか? 2000 個の変数と 1000 個のレコードを含むデータセットがあります。対数線形モデルを使用して頻度を推定しようとしています。
2 に答える
古いバージョンの SciPy (つまり 0.10 以前) を使用している場合は、scipy.maxentropy
(NLP では、MaxEnt = 最大エントロピー モデリング = 対数線形モデル) を使用できます。モジュールは、バージョン 0.11.0 がリリースされたときに SciPy から削除されました。SciPy チームは、代わりにsklearn.linear_model.LogisticRegressionを使用するようにアドバイスしました (対数線形モデルとロジスティック回帰の両方が一般化線形モデルの例であることに注意してください。線形予測変数間の関係)。
SciPy の maxentropy モジュールを使用した例(SciPy 0.11.0 で削除):
#!/usr/bin/env python
""" Example use of the maximum entropy module:
Machine translation example -- English to French -- from the paper 'A
maximum entropy approach to natural language processing' by Berger et
al., 1996.
Consider the translation of the English word 'in' into French. We
notice in a corpus of parallel texts the following facts:
(1) p(dans) + p(en) + p(a) + p(au cours de) + p(pendant) = 1
(2) p(dans) + p(en) = 3/10
(3) p(dans) + p(a) = 1/2
This code finds the probability distribution with maximal entropy
subject to these constraints.
"""
__author__ = 'Ed Schofield'
__version__= '2.1'
from scipy import maxentropy
a_grave = u'\u00e0'
samplespace = ['dans', 'en', a_grave, 'au cours de', 'pendant']
def f0(x):
return x in samplespace
def f1(x):
return x=='dans' or x=='en'
def f2(x):
return x=='dans' or x==a_grave
f = [f0, f1, f2]
model = maxentropy.model(f, samplespace)
# Now set the desired feature expectations
K = [1.0, 0.3, 0.5]
model.verbose = True
# Fit the model
model.fit(K)
# Output the distribution
print "\nFitted model parameters are:\n" + str(model.params)
print "\nFitted distribution is:"
p = model.probdist()
for j in range(len(model.samplespace)):
x = model.samplespace[j]
print ("\tx = %-15s" %(x + ":",) + " p(x) = "+str(p[j])).encode('utf-8')
# Now show how well the constraints are satisfied:
print
print "Desired constraints:"
print "\tp['dans'] + p['en'] = 0.3"
print ("\tp['dans'] + p['" + a_grave + "'] = 0.5").encode('utf-8')
print
print "Actual expectations under the fitted model:"
print "\tp['dans'] + p['en'] =", p[0] + p[1]
print ("\tp['dans'] + p['" + a_grave + "'] = " + str(p[0]+p[2])).encode('utf-8')
# (Or substitute "x.encode('latin-1')" if you have a primitive terminal.)
その他のアイデア: http://homepages.inf.ed.ac.uk/lzhang10/maxent.html
「機械学習」について言及したように、これで問題が解決するかどうかはわかりませんが、どのような種類のデータがあるかは明確ではありません。しかし、「予測」と「推定頻度」についても言及したので、補間が役立つと思います。この場合、 を参照できますscipy.interpolate
。
Rbf
補間器は、「n 次元の散乱データの放射基底関数近似/補間のクラス...」です。以下の機能をサポートしています。
'multiquadric': sqrt((r/self.epsilon)**2 + 1)
'inverse': 1.0/sqrt((r/self.epsilon)**2 + 1)
'gaussian': exp(-(r/self.epsilon)**2)
'linear': r
'cubic': r**3
'quintic': r**5
'thin_plate': r**2 * log(r)