問題タブ [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
arabic - アラビア語のタグ付きコーパス
私は文法に取り組んでいて、それが必要なので、誰でも無料のアラビア語のタグ付きコーパスを知っていますか.
どうもありがとう。ハニ・アルムスリ……
regex - 正規表現の検索と置換の支援
テキスト ファイルがあり、各行の形式は次のとおりです。
TAB WORD TAB POS TAB FREQ#
正規表現ウィザードの 1 人が、ファイルから WORDS を分離するのを手伝ってくれませんか? 私は TextPad で検索と置換を行います。うまくいけば、それで済みます。複数の検索と置換は問題ありません。1 つ: 「動詞」を検索すると、品詞だけでなく「動詞」の WORD も表示されることに注意してください。最終的には、1 行に 1 語で終わりたいと思っています。
本当にありがとう!
database - エンティティ名のデータベース(大学、都市、性格、国など)の検索
私と他の人が取り組んでいるエンタープライズアプリケーション研究プロジェクトでは、投稿されたメッセージを普遍的に保つために、ページから特定のコンテンツを削除しようとしています(不快ではなく、本質的に匿名であることを意味します)。今のところ、ユーザーがメッセージボードに投稿したメッセージを受け取り、あらゆる種類の名前、大学または機関の名前、冒とく的な表現を削除します(可能であれば、会社名を削除します)。
メッセージをスクラブしてデータベース内の値をチェックし、これらを認識するために接続できるデータベースはありますか?
speech-recognition - 音韻レベルで音声をテキストに出力するソフトウェアはありますか?
オーディオファイルを取得して音韻(IPA)テキストを出力できるソフトウェアはありますか?
私はそこにあるソフトウェアの多くがそれを言語に直接導くことを理解していますが、「教えることができる」ものはありますか?
artificial-intelligence - タグ付きコーパス データを使用しない隠れマルコフ モデルのトレーニング
言語学コースでは、隠れ変数が品詞である隠れマルコフ モデルを使用して、品詞 (POS) タグ付けを実装しました。タグ付けされたデータでシステムをトレーニングし、テストして、結果をゴールド データと比較しました。
タグ付けされたトレーニング セットなしで HMM をトレーニングすることは可能でしたか?
ruby - Ruby 言語学の宝石
数字を単語に変換しようとしましたが、問題があります:
「91.80」にしたいです。私は言語学の宝石を使用しています。それに対する解決策を知っていますか(言語学を好む)。
java - 所有格の名詞を取得するにはどうすればよいですか?
これは、指定された入力名詞にアポストロフィを追加するためのアルゴリズムです。
所有権を示すために文字列をどのように構成しますか?
oop - 一文は何で構成されていますか?名前を付ける方法は?
私はテキストパーサーのアーキテクチャを設計しています。例文:Content here, content here.
全文は...文です、それは明らかです。The
、quick
などは言葉です。,
と .
は句読点です。しかし、一般的に単語と句読点はすべて一緒に何ですか?それらは単なるシンボルですか?単一の文が何で構成されているかを最も合理的な抽象的な方法で命名する方法がわかりません(文字/母音などで構成されていると書くことができるため)。
助けてくれてありがとう:)
java - 品詞タグ付け-どこから始めればよいですか?
こんにちは私はそのようなタスクのソリューションを実装する方法を知りたいです:
平易な英語のテキストの500Mbファイルがあります。
単語の頻度に関する統計を収集したいのですが、さらに、各単語が正しく認識されていることを確認します(または単語の大部分)。
「彼女は大声で泣いた」という文の「泣く」は名詞として分類され、「泣かないでください」は統計に動詞を与えます。
また、固有名をフィルタリングして、別の辞書を形成することもできます。
他のタスクはもっと難しいでしょう。頻繁に出てくる単語の出現を見つけて、そのような出現のリストを作成したいと思います。
たとえば、「緑の草」、「美しい女の子」、「慎重に扱う」、「あなたは正しい」としましょう。正確に言うことができるように、どの単語シーケンスが言語で一緒に使用されることがよくありますか。
どうやって始めますか?このテーマに関するオープンなJavaツールと優れた本はありますか?
java - スペルミスを修正する自然言語モデルを構築する
このような自然言語解析プログラムを構築する方法についての本は何ですか:
どの単語のつづりが間違っているかを予測できる言語モデルが必要です。
そのようなツールを構築する方法についての最高の本は何ですか??
ps スペルチェックする無料の Web サービスはありますか? おそらくGoogleから?