問題タブ [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
statistics - 単語使用データベース?
英単語の共通性/使用率を示す無料のデータベース/場所はありますか? (イギリス英語でもアメリカ英語でも構いません)
正確な数値は気にしません。相互の相対的な数値だけです。何かのようなもの:
| 0.2
号車 | 0.08
クロマ | 0.005
オーバースプレッド | 0.0000007
編集:
データをスクレイピングできるhttp://en.wiktionary.org/wiki/Wiktionary%3aFrequency_listsを見つけました。ただし、操作が簡単な sql-format を使用することをお勧めします。
haskell - 文字列の解析に「$」が含まれる Read 型クラスの実装
私は Haskell で約 1 か月遊んでいます。初めての「本物の」Haskell プロジェクトとして、品詞タガーを書いています。このプロジェクトの一部Tag
として、次のように実装された品詞タグを表す型があります。
上記は標準化された品詞タグの長いリストですが、意図的に省略しています。ただし、この標準的なタグのセットには、ドル記号 ($) で終わる 2 つのタグがあります。PRP$ と NNP$ です。名前に $ を含む型コンストラクターを使用できないため、名前を PRPS および NNPS に変更することにしました。
これで問題ありませんが、レキシコンの文字列からタグを読み取り、それらを自分のTag
型に変換したいと考えています。これを試すと失敗します:
Haskell lexer は $ でチョークします。これをやってのける方法はありますか?
Show の実装はかなり簡単でした。リードにも同様の戦略があれば素晴らしいと思います。
python - 形容詞と副詞を名詞形に変換する
私は自分のプロジェクトで wordnet を使用して語義の曖昧さをなくそうとしています。プロジェクトの一環として、派生形容詞または副詞形をその語幹名詞形に変換したいと考えています。
例えば
美しい ==> 美しさ 素晴らしい ==> 不思議
どうすればこれを達成できますか?この種の変換を提供する wordnet 以外の辞書はありますか?
形容詞の単語の正確な意味を正確な意味を持つ名詞形にマッピングできれば、私にとって追加のボーナスになります。それは可能ですか?
ありがとうございました
php - ドメインから単語を抽出する
言葉に分解したいドメインがたくさんあります。wordlist.sourceforge.net から wordlist をダウンロードし、辞書リストを介して各ドメインを実行するブルート フォース タイプのスクリプトを書き始めました。
問題は、十分な結果が得られないことです。私が行った簡単なスクリプトは次のようになります。
$words は辞書配列であり、domains は単なるドメイン名の配列です。
結果は次のようになります。
技術的には動作しますが、コーディングの仕方がわからないのは、スクリプトに「ahead」に一致する場合、「head」または「heads」がもうないことを理解させるためのトリックです。また、'soft' と 'ware' の代わりに 'software' を選択することも理解する必要があります。はい、私は知っています、言語コンピューティングの世界は純粋な苦痛です ;)
ruby - プログラムで Heroku のようなサブドメイン名を生成するにはどうすればよいですか?
「heroku create」だけでアプリを Heroku にデプロイすると、自動的に割り当てられる興味深いサブドメインを皆さんが見てきました。
いくつかの例: blazing-mist-4652、electric-night-4641、morning-frost-5543、radiant-river-7322 など。
それらはすべて、形容詞-名詞-4桁の数字のパターンに従っているようです(ほとんどの場合)。単に形容詞と名詞の辞書をタイプして、アプリをプッシュするときにそれらの組み合わせをランダムに選択しただけですか? これを実現するRuby gemはありますか、おそらく品詞で検索できる辞書を提供しますか、それとも手動で行うものですか?
ruby - Rubyで文中の名詞と意味で最も近い形容詞を見つけるためのAPI
2つのことができるAPIまたはRubyGemを探しています。1つ目は、各単語を調べて、それが名詞であるかどうかを確認することです。私ができるようにしたい2番目のことは、形容詞(そしておそらく名詞)を調べて、それに最も類似している単語を見つけることです。これを行うための最良の方法は何ですか?
python - 文法チェックを介して一連の可能性から最も流暢なテキストを選択する (Python)
いくつかの背景
私はニュー カレッジ オブ フロリダの文学部の学生で、現在、非常に野心的なクリエイティブ プロジェクトに取り組んでいます。このプロジェクトは、アルゴリズムによる詩の生成を対象としています。Pythonで書かれています。私の Python の知識と自然言語処理の知識は、インターネットを通じて独学で得たものです。私は約 1 年間この作業を行ってきたので無力ではありませんが、さまざまな時点でこのプロジェクトを進めるのに苦労しました。現在、私は開発の最終段階に入っており、少し障害にぶつかっています。
なんらかの形式の文法正規化を実装する必要があるため、出力が活用されていない/活用されていない穴居人の話として出てこないようにします。約1か月前、SOの友好的な人々が、基本的にngram言語モデラーを使用してこの問題を解決する方法についてアドバイスをくれました-しかし、NLTKのNgramModelerが適していないように見えるため、さらに他の解決策を探しています私のニーズ。(POS タグ付けの可能性についても言及されましたが、私の素人性を考えると、私のテキストは断片的で奇妙すぎて、そのような実装を簡単に実現できない可能性があります。)
おそらく私はAtDのようなものが必要ですが、うまくいけばそれほど複雑ではありません
After the DeadlineやQueequegのように機能するものが必要だと思いますが、どちらも正確にはないようです。Queequeg はおそらく適切ではありません。これは 2003 年に Unix 用に作成されたものであり、私の人生では Windows で動作させることはできません (すべてを試しました)。しかし、私はそれがチェックするのは適切な動詞の活用と数の一致だけであることを気に入っています.
一方、AtD はより厳格で、必要以上の機能を提供しています。しかし、それが機能するためのpythonバインディングを取得できないようです。(AtD サーバーから 502 エラーが発生しましたが、これは簡単に修正できると確信していますが、アプリケーションはオンラインになるため、別のサーバーに依存することは避けたいと考えています。AtD サーバーを実行する余裕はありません。なぜなら、私のアプリケーションが私の Web ホストに要求する「サービス」の数は、このアプリケーションを安価にホストする上で問題を引き起こす恐れがあるからです。)
避けたいこと
Ngram 言語モデルを自分で構築することは、このタスクには適していないようです。私のアプリケーションは多くの未知の語彙をスローし、すべての結果をゆがめています。(コーパスが大きすぎてアプリケーションの実行速度が遅すぎる場合を除きます。アプリケーションは非常に機敏である必要があります。)
文法を厳密にチェックすることは、このタスクには適していません。文法は完璧である必要はありません。また、ngram を使用して生成できるような英語のようなごちゃごちゃした文章よりも賢明である必要はありません。ごちゃごちゃしていても、動詞の活用や数の一致を強制したり、余分な冠詞を削除したりすればいいだけです。
実際、修正のための提案すら必要ありません。必要なのは、可能性のある文のグループの各文でいくつのエラーが発生しているように見えるかを集計するものだけだと思うので、それらのスコアで並べ替えて、文法上の問題が最も少ないものを選択できます.
簡単な解決策?明らかなエラーを検出して流暢さを採点する
これらすべてを処理するスクリプトが存在する場合、私は大喜びします (まだ見つかっていません)。もちろん、見つけられないコードを書くこともできます。アプローチを最適化する方法についてのアドバイスを探しています。
ほんの少しのテキストがすでにレイアウトされているとしましょう:
existing_text = "The old river"
ここで、"to bear" という動詞のどの語形変化が次に来るかをスクリプトで判断する必要があるとします。このルーチンに関する提案をお待ちしています。しかし、主にステップ 2 でサポートが必要です。文法エラーを集計して流暢さを評価します。
- NodeBox 言語学の動詞活用メソッドを使用して、この動詞のすべての活用を考え出します。
['bear', 'bears', 'bearing', 'bore', 'borne']
. existing_text + " " + possibility
("The old river bear"、"The old river bears" など)から生じる文字列の文法を (浅く) チェックしながら、可能性を反復します。各構造のエラー数を集計します。この場合、エラーを発生させる唯一の構文は、「The old river bear」と思われます。- まとめは簡単なはずです... エラー数が最も少ない可能性から、ランダムに選択します。
iphone - NSString内の単語の品詞を識別するにはどうすればよいですか?
現在作業中のアプリでは、の単語の品詞を判別する必要がありますNSString
。
それで、基本的に、Objective Cでアクセスできるライブラリ/データベース/クラスがあります。これにより、1つの単語(の形式NSString
)が名詞、形容詞、副詞、または動詞であるかどうかを確認できますか?
次のようなもの:
類似しているが少し無関係なメモNSString
で、同じ語幹で時制が異なる2つの動詞(ask、asking、askなど)が同じ語幹を持っているかどうかを確認することはできますか?それも非常に便利です。
python - 最も速く話すことができる単語と単語の組み合わせを見つける
私は非常に素早くラップできる文章を見つけるのが大好きです。たとえば、「ウィキペディアを少し読んでください」や「麦芽のボトルを持って樋に巻き込まれたくない」などです。(ジョージ・ワトスキー)
私はPythonでプログラムを作成して、話しているときに非常に速く聞こえるように明瞭に表現できる単語(または単語の組み合わせ)を見つけられるようにしたかったのです。
当初は音節と文字の比率が高い単語が最適だと思っていましたが、Pythonプログラムを作成してそれらの単語を見つけると、あまり速く聞こえない非常に単純な単語(「iowa」など)のみを取得しました。
だから私は実際に言葉を速く聞こえさせるものに途方に暮れています。形態素と文字の比率ですか?母音と子音の交互のペアの数ですか?
この問題を解決するためにPythonプログラムをどのように考案しますか?
javascript - ブラウザで言語構文ツリーをレンダリングする
入力は次のいずれかです。
(1)次のようなラベル付きの内部ノードを持つツリーの括弧で囲まれた表現。
出力付き:
(線が破線であるかどうか、およびキャプションが存在するかどうかは重要ではありません。)
または、入力は次のようになります。
(2)ラベルのない単語の括弧(例:
上記と同じ出力で(今回は内部ラベルはなく、ツリー構造のみ)。
入力のもう1つの要素は、ツリーが(1)のようにラベル付けされているか、(2)のようにラベル付けされていないかです。
私の質問: JavaScriptでブラウザにこれらのツリーをレンダリングするための最良の方法(最も速い開発時間)は何ですか?すべてはクライアント側で発生する必要があります。
テキストボックス(およびラベル付きツリーかどうかを指定するラジオボタン)だけのシンプルなインターフェイスを想像しています。これを変更すると、ツリーがレンダリングされます(入力に構文エラーがない場合)。