これは奇妙な要求のように思えるかもしれませんが、私はドキュメンテーションのファンではない誰かによって書かれたコード ベースを扱っており、これが私の問題に対する最善のアプローチのようです。基本的に、このサイトには参照トランスクリプトを含む多数のビデオがあり、elasticsearch の元のトランスクリプト ファイルのインデックスを作成しようとしています。
基本的に、html でソースとして使用されている文字列を取得できるところまで来て、探しているトランスクリプトの実際のファイル名を特定しましたが、正確な方法がわかりません。 2つをリンクします。
これらのことに関して、Djangoがある種のパスマジックを行うことは知っていますが、私はDjangoにあまり詳しくなく、締め切りが近づいているので、助けていただければ幸いです。基本的に、次の形式の HTML 要素があります。
<div id="id" class="video" file-name="OEoXaMPEzfM" data-caption-asset-path="/transcript/directory/">
どんな助けでも大歓迎です。