問題タブ [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 文字列を製品名だけに短縮
助けが必要です。Amazon の完全な製品名を短縮しようとしています。例えば:
Samsung Galaxy S II Epic Touch 4G Android Phone (スプリント)
ギャラクシー S II
私はこれをプログラム的に行いたいと思っています。何か案は?
python - 文の文脈に基づいて、あなたが主語であるか目的格代名詞であるかを検出します。
理想的には、Pythonで正規表現を使用します。単純なチャットボットを作成していますが、現在、「Iloveyou」などのフレーズに正しく応答できません(「Youloveme」が返されるはずのときに、文法ハンドラーから「YouloveI」が返されます。 ")。
また、この文法ハンドラーに入れる良いフレーズがあればいいのにと思います。いくつかのテストデータが欲しいです。
そこに他動詞の良いリストがある場合(「使用された上位100」のようなもの)、それと特別な場合には「他動詞+あなた」パターンを使用することが許容される場合があります。
python - 入れ子になったタプルの値をタプル全体で置き換える
わかった、
私は言語証明に取り組んでおり、ステートメントまたは式を表す一連のタプルを持っています。時々、「and」ステートメントが埋め込まれてしまい、それを表面に「バブル」させようとしています。次のようなタプルを取得したい:
または、より単純な例:
and を 2 つのステートメントに分けて、一番上のステートメントが次のようになるようにします。
そして一番下のもの:
私は多くのことを試しましたが、常に非常に醜いコードであることが判明しました。また、次のようなネストされたタプルがさらにある場合、問題が発生します。
結果を出したい
基本的に、問題はネストされたタプルをタプル全体の値に置き換えようとしていますが、ネストされたタプルは変更されています。とても醜いです。:(
私は非常に流暢なPythonではないので、そこにあってはならないことがわかっている多くのforループで非常に複雑になります。:(どんな助けでも大歓迎です!
c++ - 単語から音節へのコンバーター
私はc ++でコードを書いています。単語から音節へのコンバーターが必要です。オープンソースの標準アルゴリズムが利用可能か、それを構築するのに役立つ他のリンクがあります。
理想的には、「見えない」などの複雑な単語を解析できる必要があります。
perl と python でアルゴリズムのリンクを既に見つけましたが、c++ で利用できるライブラリがあるかどうかを知りたいです。
どうもありがとう。
dataset - 基本的な文章を構成するための一般的な単語のデータセット
だから私は「冷蔵庫の磁石」をインタラクティブにしていて、ユーザーがドラッグできる単語の有効なデータセットを見つけようとしていました。
私はこのデータセットを使用しています..しかし、それほど素晴らしいものではありません
http://en.wikipedia.org/wiki/Most_common_words_in_English
より有効な単語のセットを見つけるためのアイデア
parsing - 正式な文法には可変すぎるが NLP には制約が多すぎるテキストを解析する方法は?
私は非公式に書かれたテキストのコーパスを扱っていますが、一般的に慣習により非常に標準的な形式に準拠しており ( Froyo Frozen Yogurt、Smucker's Peanut Butter のようなものを考えてください)、場合によっては再帰が必要です ( Froyo Frozen Yogurt with Smucker's Peanut Butter )。
正規表現を使用すると、複雑さがすぐに手に負えなくなります ( Froyo の Frozen Yogurt 、Smucker's の Froyo Frozen Yogurt with Peanut Butterなど)。
このための EBNF を作成するのに役立つリソースを見つけるのに苦労しています。また、NLP メソッドが複雑すぎます (さらに、私の「品詞」は通常の英語と実際には対応していません)。半形式化されたテキストを対象とした中間的なアプローチはありますか?
python - エラー: 無効なモード ('r') - Python 2.7 で LingPy を使用して Cognate Analysis を実行できません
Python 2.7 用の LingPy 1.0.1 ライブラリを使用して、作成したスペイン語と英語の単語の単一のタブ区切りリストで同族分析を実行しようとしています。リストは SE.lxs という名前で、次のようになります。
ここで定義されている適切な形式だと思います: http://lingulist.de/lingpy/docu/lingpy.lexstat.LexStat.html
ただし、コマンドを実行すると:
次のエラーが表示されます。
問題の写真はこちらにあります: http://i.imgur.com/XdLig.png
python - 特定の長さの文字列内の人気のある部分文字列をキャプチャする度数分布表を作成する - Python
編集中のスワヒリ語コーパスで頻度分析を計算しようとしています。現時点では、これは私が持っているものです:
したがって、このプログラムは、指定されたパス内のすべてのファイルを繰り返し処理し、各ファイルのテキストを読み取り、最も頻繁に使用される 1000 の単語を表示します。問題は次のとおりです。スワヒリ語は膠着語です。つまり、時制、因果関係、仮定法、前置詞などを伝えるために、接尾辞、接尾辞、接頭辞が単語に追加されます。
したがって、「する」を意味する「-fanya」のような動詞の語根は、nitakufanya - 「私はあなたをするつもりです.」になる可能性があります。その結果、この頻度リストは、「for」、「in」、「out」など、前述の中置辞を使用しない接続語に偏っています。
「ニタクファニャ」や「ツナファニャ」などの単語を見て、「ファンヤ」という単語を合計に含める簡単な方法はありますか?
いくつかの潜在的な注意事項:
- 動詞の語根は単語の最後になります
- 単語の先頭にある主語マーカーは、次のいずれかです。私たち)、'm' (皆さん)
- 主語マーカーの後には、次のいずれかのテンス マーカーが続きます: 'na' (現在)、'li' (過去)、'ta' (未来)、'ji' (再帰)、'nge' (条件付き)
ありがとう
python - トライ?Pythonで単語と末尾の文字を一致させる
これは、stackoverflowでのほとんどのトライの問題とは少し異なります(はい、私は検索と読み取りに時間を費やしました)ので、ご容赦ください。
私は次のような単語を含むファイルAを持っています:allow *、apolog*など。合計で数万のそのようなエントリがあります。そして、最大数千の単語を含むテキストの本文を含むファイルBがあります。ファイルBのテキストの単語とファイルAの単語を一致させたい。
例:
ファイルBの「謝罪」はファイルAの「謝罪*」と一致します
ファイルBの「a」は「allow*」にも「apolog*」にも一致しません
FILEBの「apologizetomenoworelseiwillkillyou」もFILEAの「apolog*」と一致します
これを達成するのに役立つアルゴリズム/データ構造(Pythonで実行可能であることが望ましい)を誰かが提案できますか?私が調べた試みは、接頭辞を単語全体に一致させることに関するもののようですが、ここでは、単語全体を接頭辞に一致させています。ステミングアルゴリズムはルールが固定されているため問題外ですが、この場合、私の接尾辞は何でもかまいません。時間がかかりすぎるため、ファイルAのリスト全体を繰り返し処理したくありません。
これが紛らわしい場合は、明確にさせていただきます。ありがとう。
algorithm - 英語のスペルミス修正シーケンス
私は少し検索エンジンをやっています。機能の 1 つは、何も見つからないスペルを修正する試みです。次の音声シーケンスを置き換えます: ph<->f、ee <-> i、oo<->u、ou<->o (色<->色)。そのような英語の完全なリストはどこにありますか? ありがとうございました。