ファイル内の特定の文の直後にあるテキストを抽出したいと思います。
1 に答える
特にBeautifulSoupが必要ですか?以下を使用しない場合:
特定の文の直後にテキストを分割するには、これを試してください。文の後に具体的に何を抽出したいかわからないので、文の後のすべてを意味すると仮定します。
たとえば、ファイルがある場合file.txt:
Lorem ipsum dolorは、amet、consecteturadipiscingelitに座ります。Vivamusはmattisrisusを妊娠し、amet elementum loremgravidaeuに座ります。Cras vitae ante vel eratfeugiatscelerisque。Etiam nec urna sed enim blandit blandit nonnecodio。Quisque laciniatempusrhoncus。Mauris euismod leo ut velitlobortisfeugiat。Phasellus ultrices nunc sit amet tortor pretium eu mollisnequecondimentum。Fusce placerat bibendum diamegeteuismod。Phasellus ultricies erat nibh、sedvolutpatquam。Nunc quis mauris sed purusaliquetaliquam。整数viverrarutrumarcuactempor。
そして私の文章は、Mauris euismod leo ut velit lobortis feugiat.
あなたはこれを行うことができます:
with open("file.txt") as file: #open a file securily, then automitaclly close it
seperator = "Mauris euismod leo ut velit lobortis feugiat." #assign pre-opt variable for the sentence
for line in file:
text = line.split(seperator,1)[1]
print text
>>> Phasellus ultrices nunc sit amet tortor pretium eu mollis neque condimentum. Fusce placerat bibendum diam eget euismod. Phasellus ultricies erat nibh, sed volutpat quam. Nunc quis mauris sed purus aliquet aliquam. Integer viverra rutrum arcu ac tempor.
BeautifulSoup
より具体的なものが必要な場合は、ファイルからすべてのテキストを抽出することを使用して、私に知らせてください。
from bs4 import BeautifulSoup
soup = """<html><body><div style="DISPLAY: block; TEXT-INDENT: 0pt"><br/></div> <div align="justify" style="DISPLAY: block; MARGIN-LEFT: 0pt; TEXT-INDENT: 0pt; MARGIN-RIGHT: 0pt"><font style="DISPLAY: inline; FONT-WEIGHT: bold; FONT-SIZE: 10pt; FONT-FAMILY: Arial">Our Earnings are Significantly Affected by General Business and Economic Conditions</font></div></body></html>"""
print(soup.get_text())
出力:
Our Earnings are Significantly Affected by General Business and Economic Conditions