問題タブ [linguistics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
147 参照

nlp - winwordの要約機能の背景

Winword には自動要約ツールがあります。背景、つまり、どのアルゴリズムが使用されているか、またはこの機能に関する追加の背景情報をどこで見つけることができるかを知っている人はいますか?

ありがとうございました

0 投票する
3 に答える
542 参照

ruby - 「動詞活用のルビー言語学」をインストールするにはどうすればよいですか?

「動詞活用のルビー言語学」のソースコードをダウンロードしました。

どうすれば使用できるようにインストールできますか?それをいくつかの宝石にコンパイルする必要がありますか?

0 投票する
1 に答える
13176 参照

c# - 英語辞書 API

単語の定義を検索できる公開 API はありますか? 私はこれを少し探していましたが、辞書のデータ構造と混同されています。ac# アプリで使用する予定です。

ありがとう

0 投票する
5 に答える
2829 参照

c++ - 機械学習、人工知能、計算言語学

機械学習、計算言語学、または人工知能全般の経験がある人と話をしたいのですが、次の例を使用してください。

• 統計言語、機械学習による Google 翻訳のようなものを構築するための管理可能な試みとして、どの既存のソフトウェアを適用しますか? (誤解しないでほしいのですが、私はただこれをやりたいわけではありませんが、この分野で最も複雑なことの概念的なフレームワークを描こうとしているだけです。実現しようとしているチームを率いる機会があったとしたら、あなたはどう思いますか?そのような...)

• 既存のデータベースは? 結果がテラバイトのデータである場合、どのデータベース技術で結果を保存するか

• C++ 以外のプログラミング言語は?

•アパッチマハント?

• そして、これらのソフトウェア コンポーネントがどのように連携して、全体としての取り組みを強化するのでしょうか?

0 投票する
3 に答える
5709 参照

php - PHP 用シソーラス クラスまたは API [編集済み]

TL;DR 要約:同義語やその他の関連語を取得するために使用できる単一のコマンドライン アプリケーションが必要です。多言語対応で、クロスプラットフォームで動作する必要があります。誰かが私に適したプログラムを提案したり、私がすでに見つけたプログラムを手伝ってくれたりできますか? ありがとう。


より長いバージョン: 私は、ユーザーが入力した単語の代替候補を提示できるシステムを PHP で作成する任務を負っています。これらの提案を生成するために使用できるシソーラス アプリケーション/API などを見つける必要があります。

重要なのは、多言語 (英語、デンマーク語、フランス語、ドイツ語) である必要があることです。これにより、Google を使用して見つけたほとんどのソフトウェアが除外されます。また、クロスプラットフォームである必要があります (Linux と Windows で動作する必要があります)。

私の調査の結果、WordNetStardictという 2 つの有望な候補が見つかりました。

私はこれまで WordNet に焦点を当て、shell_exec()関数を使用して PHP から呼び出し、それを使用して非常に有望なプロトタイプ PHP ページを作成することができましたが、これまでのところ英語のみです。多言語での使用方法に苦労しています。

Wordnet サイトには、他の言語の Wordnet プロジェクトへの外部リンクがあります (デンマーク語のDanNetなど)。Wordnet と呼ばれることが多いですが、さまざまなデータベース形式とソフトウェアを使用しているようで、私には不向きです。PHP プログラムから呼び出すことができる一貫したインターフェイスが必要です。

Stardict は、その観点からはより有望に見えました。1 つのアプリケーションに対して標準の DB 形式で多くの言語の辞書を提供します。

しかし、Stardict の欠点は、主に GUI アプリであることです。コマンドラインから呼び出すと、GUI が起動します。コマンドライン バージョン ( SDCV ) があるようですが、かなり古くなっているようで (最終更新は 2006 年)、Linux 専用です。

これらのプログラムのいずれかに関する問題を解決できる人はいますか? または、私が使用できる他の代替ソフトウェアまたは API を誰かが提案できますか?

どうもありがとう。

0 投票する
1 に答える
479 参照

ruby-on-rails - Rails3.1およびRuby1.9.2の言語ライブラリのエラーを修正する方法

私のアプリケーションには、最近のバージョンのレールで問題なく次の行があります。

最近、Ruby1.8.7からRuby1.9.2にアップグレードし、Railsのエッジバージョンを使用しています。サーバーを起動すると、次のように表示されます。

これを修正する方法について何かアイデアはありますか?これは言語学とRuby1.9.2の間の非互換性ですか?

0 投票する
1 に答える
900 参照

php - 英語の単語分類

文字列からの英語の単語の検出+分類URLの大規模なデータベースがあり、このデータから英語の単語を抽出して、URLに含まれる単語を分類したい

例:apple.com-> apple:fruitおよびapp:computer

文字列ごとの単語を作成するPHPスクリプトは他にもありますが、サポートが必要なのは、英語の単語を分類するためのオープンデータソースです。

例:忍者=武道

PHP部分は、単にルックアップを実行します。ページコンテンツを分類するためのベイジアンスクリプトを見たことがありますが、これは2、3語程度であり、必要なものよりも複雑な場合があります。

よろしくお願いします

0 投票する
1 に答える
137 参照

language-agnostic - 単語構造の機械学習

私は、音節テンプレートや修正された Backus Naur Form など、さまざまなユーザー入力に基づいて、架空の単語を作成できるシステムに取り組んでいます。ただし、新しいモードの 1 つは、機械学習になる予定です。ここでは、ユーザーがルールを明示的に定義するのではなく、テキストを貼り付けると、システムは指定された単語の構造を学習し、類似した単語を作成します。

私の現在の素朴なアプローチは、文字近傍確率の表を作成し (特別な単語の終わりの「文字」を含む)、入力を文字のペアごとにスキャンすることで埋めます (空白と句読点を単語の境界として使用します)。単語を作成するということは、すべての文字が現在の文字に続く確率を調べ、確率に従ってランダムに 1 つを選択し、追加し、単語の終わりに達するまで繰り返すことを意味します。

しかし、(おそらく?) より良い結果をもたらす、より洗練されたアプローチを探しています。私は機械学習についてあまり知らないので、トピック、テクニック、またはアルゴリズムへのポインタをいただければ幸いです。

0 投票する
9 に答える
18657 参照

c - 数字を取り、その英単語を出力するアルゴリズム

ユーザーに数字を入力するように求め、その数字を英語で出力するプログラムをCで作成したいと思います。

例えば:

等々。switch-case と if else を使用して作成できますが、コードが長くなります。数が少ない場合は問題ありませんが、100 まで書く必要がある場合は長くなります。

これに関する短いアルゴリズムまたはアイデアはありますか?

0 投票する
1 に答える
1738 参照

dictionary - 辞書ソースファイル形式と関連ツールを探しています

汎用テキスト エディター (Emacs を使用) で編集するのに便利で、バージョン管理下に保存できる (そして簡単にマージできる) 辞書ソース ファイル形式を探しています。

そのため、自分の辞書に関する作業を他の人と共有できます。

ディクショナリ ソフトウェア ファイル形式で使用するために辞書ソースをインデックス付き形式に変換するツールをサポートしていないと、使用できません。

クライアント辞書ソフトウェアとして、私は GoldenDict: http://goldendict.org/dictionaries.phpを使用します。これは、多くのインデックス付き辞書ファイル形式を理解しますが、推奨された場合は別のものに切り替えます。

以前は TAB 形式 (.dict.dz/.idx/.ifo に変換された StarDict の元のファイル形式) を使用していました。それは醜いです!各単語の定義は 1 行にまとめ、TAB による定義とは別の単語にする必要があります。見て:

次に、Dictd ファイル形式を使用してみます。それははるかに優れています:

http://xdxf.sourceforge.net/についても知っています。しかし、よく見ると、これは死んでいるプロジェクトだと言えます。また、2 つの顕著な省略があります。

  • ノイズの多い XML 組版で記事を書くのは難しい
  • ソースを使用可能な辞書に変換するツールはありません (他のソース形式にのみ変換してから、使用可能な辞書を作成できます...)

私はより良い解決策を探しています...


なんで?私は外国語を学んでおり、学習した単語の辞書を作成してそれらを修正し、さらに活用したいと考えています。

また、オープン ソース ソフトウェアのプロジェクト マニュアルやフリー ブックの翻訳にも携わっており、作成した辞書を翻訳者間で共有して一貫した翻訳を維持できるように、用語のリストを維持したいと考えています。