extract data from html code

Question

I want to extract data into div tags using BeautifulSoup :

<div class="post contentTemplate" itemprop="text">Data to extract<div class="clear"></div></div>

Chiheb Nexus · Accepted Answer · 2017-04-08 15:03:17Z

1

You can try something like this:

from bs4 import BeautifulSoup as bs

data = '<div class="post contentTemplate" itemprop="text">Data to extract<div class="clear"></div></div>'
soup = bs(data)
m = soup.findAll("div", {"class": "post contentTemplate"})
for k in m:
    print(k.get_text())

Output:

Data to extract

answered Apr 8, 2017 at 15:03

Chiheb Nexus

9,2774 gold badges33 silver badges45 bronze badges

Sign up to request clarification or add additional context in comments.

Comments

odradek · Accepted Answer · 2017-04-08 14:52:51Z

0

you can use the get_text() method. this will extract all text from every div that find_all() finds in the source code.

data = [e.get_text() for e in html.find_all('div')]

when run it returns:

[u'Data to extract', u'']

if you don't want the empty values just filter them out.

data = [e.get_text() for e in html.find_all('div') if e.get_text()]

answered Apr 8, 2017 at 14:52

odradek

1,0018 silver badges14 bronze badges

Collectives™ on Stack Overflow

extract data from html code

2 Answers 2

Comments

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

2 Answers 2

Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Related