問題タブ [information-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Amazon BrowseNodes API で意味のあることをする
私は、書籍リストを作成する Web サイト (www.7bks.com) を持っています。現時点ではかなり単純です。私はすでに Amazon API を使用して、本の情報や画像などをサイトにプルしています。
私がやりたいことは、どうにかして Amazon API を使用してカテゴリやタグ データを取得し、サイトのリストをブラウジングする何らかの方法を作成することです。残念ながら、tag api メソッドは廃止されました。
最も可能性の高い候補は Amazon API の BrowseNodes メソッド ( http://docs.amazonwebservices.com/AWSEcommerceService/2005-10-05/ApiReference/BrowseNodesResponseGroup.html ) ですが、この呼び出しから返されるデータはかなり無意味であり、私は頭をまとめて、それを理解する方法を見つけられることを願っています。
これは、私が取得したデータの種類を示す Google スプレッドシートです。サンプル リスト ( http://www.7bks.com/list/549002 ) を選び、BrowseNodes API を介して 3 冊の本を実行しました。
人間としてリストを見ると、リストがSFとファンタジーに関するものである可能性が高いことを確認するために、本が何であるかを知る必要はありません. それは主に、「カスタム ストア」や「フィクション コンプリート」などの無意味なカテゴリを破棄するのが得意な目だからです。
カテゴリのリストの重複を排除するか、3 本すべてに表示されるカテゴリだけを調べてみましたが、それでもかなりくだらないデータです。このデータをユーザーにとって意味のあるものに変える方法について、ご意見をお待ちしております。
これまでの私の最善の考えは、データをスキャンして、ハードコードされたリストに一致させることです。次のようなものです:
Count("SF & ファンタジー") > 3 の場合、リストは SF です。 Count("ビジネス ファイナンス & 法律") > 3 の場合、リストはビジネスです。
等
これは非常に厳格ですが、理想的には、もう少し柔軟で強力なものを構築したいと考えています。
すべての提案を歓迎します。
これは高レベルの質問だと思うので、API の呼び出し方法に影響されるべきではありませんが、参考までに Python/Appengine/Webapp を使用しています。
ありがとう
トム
更新机に頭をぶつけた後、この問題を満足のいくように修正することができました。それほど複雑ではありませんが、私が望むことを実行するいくつかの Python コードを一緒にハックしました。私のコードを改善したり、提案を提供したりする人を歓迎します。
基本的に、コードの根底にあるロジックは次のとおりです。1) XML ツリーでは、開始するノード (本 > 主題) の最下部のノードが、本が実際に何について書かれているかを最もよく推測します。例: http://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/「サイエンス フィクション」を返します。ビンゴ。2) 通常、最初の結果 (書籍 > 主題) だけに限定することで、多くの有益な情報が失われます。したがって、3) 似たような本のリストを取得して、それらからカテゴリを取得しようとします。それが失敗した場合は、元の本に割り当てられたカテゴリを取得します。
おそらく、次のようにコードを提供することで最もよく説明されます。
出力のフレーバーを与えるには:
本: http://www.amazon.co.uk/Surface-Detail-Iain-M-Banks/dp/1841498939/
タグ: 現代フィクション 製品 スペース オペラ サイエンス フィクション
http://www.amazon.co.uk/Godel-Escher-Bach-Eternal-anniversary/dp/0140289208/ 心理学 数学史 数学的論理 AAS ポピュラー数学 科学、技術、医療 芸術と音楽 心の哲学 Amazon 数学アーキテクチャ& Logic Contemporary Philosophy: 1900- Logic Classics Physics Metaphysics Philosophy of Physics 一般的なテクノロジー 代数的数論 人工知能 科学史
http://www.amazon.co.uk/Flatland-Romance-Dimensions-Dover-Thrift/dp/048627263X/ 現代フィクション 数学哲学 一般 AAS ポピュラー数学哲学 科学的、技術的、医学的精神哲学 サイエンス フィクション 数学 現代哲学: 1900- 代数的数論 製品 古典 形而上学 & 幻想 神話 & おとぎ話 トポロジー 一般的なトピック 一般的な理論的方法 形而上学 人工知能 科学の歴史
http://www.amazon.co.uk/Victoria-Condor-Books-Knut-Hamsun/dp/0285647598/ 現代小説 文芸小説 心理学 一般 AAS 古典 短編小説
nlp - 最高のターンキー関係検出ライブラリ?
最適なターンキー (すぐに使用できる、産業用強度) の関係検出ライブラリは何ですか?
私は NLTK で遊んでいますが、得られる結果はあまり満足のいくものではありません。
- http://nltk.googlecode.com/svn/trunk/doc/book/ch07.html
- http://nltk.googlecode.com/svn/trunk/doc/howto/relextract.html
理想的には、次のような文を取ることができるライブラリが欲しいです:
「サラは子供を食べていたオオカミを殺した」
それを次のような意味のデータ構造に変換します。
殺された(サラ、オオカミ) AND 食べる(オオカミ、子供)
これは多くの研究対象であり、簡単な作業ではないことを私は知っています。とはいえ、関係を検出するための、かなり堅牢ですぐに使用できるライブラリを知っている人はいますか?
image - 画像特徴識別
次のことを行うための解決策を探しています。
(私の質問の焦点はステップ 2 です。)
前庭を含む家の写真
家、木、歩道、車の寸法や位置などの情報を画像から抽出します。また、家、車、木、歩道の質感と色。
抽出した情報を使用してモデルを生成する
どうすればその情報を抽出できますか?
r - R:オントロジーとWeb抽出のデータ構造
大規模なウェブサイトから情報を抽出し、オントロジーを生成したいと思います。記述論理で処理できるもの。
抽出されたhtmlデータにはどのようなデータ構造が推奨されますか?
私のアイデアはまだ:
-データフレーム、テーブル構造を使用する
-セットとリレーション(セットパッケージと良好なリレーション)
-グラフ
。
最後に、データをエクスポートし、別のプログラミング言語を使用して述語論理(または記述論理)で処理することを計画しています。
Rを使用してhtmlページから情報を抽出したいと思います。しかし、私が理解しているように、述語論理またはRDF / OWLのR(またはパッケージ)には直接のサポートはありません。
したがって、抽出を実行し、プロセスでデータ構造を使用して、データをエクスポートする必要があります。
データ例:
インスタンスデータが「SomeDocument」、「DepartmentA」、「PersonA」の場合。
。
それが理にかなっている場合、ある種の推論(しかしおそらくRではない):
nlp - 情報抽出。関連性を測定するための言及のカウント
エンティティが記事で言及された回数を数えることはできますか? 例えば
ABC Company
世界最大の自動車メーカーの1つです。It
また、年間生産量でも最大の企業です。It
XYZ社に次ぐ高級車の輸出国でもあります。両方ABC
と XYZ を合わせると、国内の総自動車生産の n% 以上を生産しています。
ABC社に4回言及。
extraction - AutoCADの構造抽出を支援するライブラリはありますか?
データベースに保存するために、AutoCADモデルにクエリを実行して、構造とモデル間の接続(電力、データなど)を抽出する必要があります。経験と調査から、ネイティブのAutoCAD .dwgの処理には、形式の独自性のために問題があることがわかっています。AutoCADは.NETAPIを備えているように見えますが、モデルの内容の先験的な知識が本質的にないため、問題は気が遠くなるように見えます。私の最初のグーグルはツールのサポートや例の点であまり成果を上げていないので、問題は博士論文のように見えます。
少ない予算で圧縮されたスケジュールでAutoCADの抽出を実行可能にするために利用できるツール/ライブラリ/例はありますか?
html - htmlから基本情報抽出?
ユーザーが外部サイトへの多くのリンクを送信するプロジェクトがあり、これらの送信されたリンクの HTML を解析し、リンクが送信されたときに Digg や Facebook が行うのと同じ方法でページから基本情報を抽出する必要があります。
取得したい:
- メイン タイトルまたは見出し (タイトル、、、などにある可能性があり
h1
ますh2
...p
) - イントロまたは説明テキスト ( などに含まれる可能性があります
div
...p
) - メイン画像
私の主な問題は、ここで探索するにはあまりにも多くのオプションがあり、私は少し混乱して座っていることです. 私がこれまで見てきた多くのソリューションは、不適切または非常にやり過ぎのようです。
forum - フォーラムのデータ分析
私は、フォーラムからのデータを分析して信頼できる情報を取得するエキスパート システムに取り組んでおり、これらの情報を使用してエキスパート システムを学習しています。
問題は、フォーラム上の既存のデータの約 50% のみが真実である場合に、90% の信頼できるデータを提供するデータを抽出する方法です。フォーラムのデータ抽出に関する最良のリソースは何ですか??
このトピックについてよく検索しましたが、主に「フォーラム」という不適切なキーワードが原因で、何も見つかりませんでした!!
ありがとうございました
data-mining - Web ページからナビゲーション メニューを抽出するには、どのような手法がありますか?
リンク(およびおそらくテキスト)が多いWebページからナビゲーションに使用されるメニューを抽出する方法を探しています。私が興味を持っているページは、非常に単純で有効な XHTML であり、メニューがページの最初または最後のどこかにあることは間違いありません。しかし、それが正確にどこにあるかを見つけるための優れた一般的な方法は、これまでのところ私にはわかりませんでした.
簡単なメモ: 私は読みやすさのようなものを探しているのではありません - メインの記事を見つけて他のすべてを取り除きますが、具体的にメニューを見つける何かを探しています. また、「後継者として多くのリンクを持つ要素を見つける」という単純な方法はあまりうまく機能しません。ページにはかなり長いリンクのリストが含まれる傾向があるためです。
編集: リンクされているページのコンテンツを取得するためのメニューが必要です (情報抽出プロジェクト用の Web スクレーパーを構築しています)。私が使用するいくつかのサンプルページ:
- http://p2.cs.berkeley.edu/
- http://www.cs.cornell.edu/bigreddata/maybms/ (注: ここでは、サイドバー ナビゲーションではなく、出版物/ダウンロードを指すメニューが必要ですが、読みやすさなどを使用すると、サイド バー ナビゲーションを取り除く方が簡単です) .
data-modeling - 何百万ものシンプルだが一貫性のないテキスト ファイルから情報を抽出する
pdf から抽出したさまざまなデータ構造を含む何百万もの単純な txt ドキュメントがあり、テキストは行ごとに印刷されるため、すべての書式設定が失われます (書式を維持するためのツールを試したところ、めちゃくちゃになってしまったためです)。このテキスト ドキュメントからフィールドとそこの値を抽出する必要がありますが、これらのファイルの構造にはいくつかのバリエーションがあります (あちこちに新しい行があり、一部のシートにノイズがあるためスペルが正しくありません)。
キーワードと値の座標 (行、単語/単語番号) に関する情報を使用してある種のテンプレート構造を作成し、この情報を使用して、さまざまなアルゴリズムを使用してそのようなキーワード値を見つけて収集し、一貫性のない書式設定を補うと考えていました。
これを行う標準的な方法、役立つリンクはありますか? 他のアイデアはありますか?