タプルのリストとして表される階層的なキーワードツリーがあります。最初の引数は「パス」で、2番目の引数は対応するキーワードです。
keys = [('0','key1'),('0,1','key2'),('0,1,12','key3'),('0,2','key4'),('0,2,30','key5')]
「パス」と対応するドキュメントを接続するリスト(1つのドキュメントに複数の「パス」を含めることができます):
docs = [('0,1,12','doc1'),('0,2,30','doc1'),('0,1','doc2')]
各ドキュメントをキーワードに一致させて、次のような結果を生成したいと思います。
docdict={doc1:[('key1','key2','key3'),('key1','key4','key5')],doc2:[('key1','key2')]}
私の質問は、すべての(親)キーワードを最も効果的に取得する方法ですか?前もって感謝します!