Python美丽的汤表数据除特定的<td>数据之外的所有数据

我试图从一个网站上抓取数据,该网站包含来自多个用数字表示的页面的印度所有政治人物的数据。


url: http://www.myneta.info/ls2014/comparisonchart.php?constituency_id=1

我希望将数据从多个网站导出到 CSV 文件中。


这是我正在尝试的示例表:


<tr>

    <td class=chartcell><a href='http://myneta.info/ls2014/candidate.php?candidate_id=7678' target=_blank>Banka Sahadev</a></td>

    <td class=chartcell align=center>53</td>

    <td class=chartcell align=center>M</td>

    <td class=chartcell align=center>IND</td>

    <td class=chartcell align=center><span style='font-size:150%;color:red'><b>Yes</b></span></td>

    <td class=chartcell align=center><span style='font-size:160%;'><b>1</b></span></td>

    <td class=chartcell align=center>1</td>

    <td class=chartcell align=left>     <b><span style='color:red'> criminal intimidation(506)</span></b>, <b><span style='color:red'> public nuisance in cases not otherwise provided for(290)</span></b>, <b><span style='color:red'> voluntarily causing hurt(323)</span></b>, </td>

    <td class=chartcell align=center>Graduate</td>

    <td class=chartcell align=center>19,000<br><span style='font-size:70%;color:brown'>~ 19&nbsp;Thou+</span></td>

    <td class=chartcell align=center>3,74,000<br><span style='font-size:70%;color:brown'>~ 3&nbsp;Lacs+</span></td>

    <td class=chartcell align=center>3,93,000<br><span style='font-size:70%;color:brown'>~ 3&nbsp;Lacs+</span></td>

    <td class=chartcell align=center>0<br><span style='font-size:70%;color:brown'>~ </span></td>

    <td class=chartcell align=center>N</td>

    <!--<td class=chartcell align=center>0<br><span style='font-size:70%;color:brown'>~ </span></td>

    <td class=chartcell align=center>0<br><span style='font-size:70%;color:brown'>~ </span></td>

    <td class=chartcell align=center>2,00,000<br><span style='font-size:70%;color:brown'>~ 2&nbsp;Lacs+</span></td> -->

</tr>

我已经使用 BeautifulSoup 来获取数据,但是如果我打开 CSV 数据,它们会以某种方式合并数据并且看起来非常笨拙。


慕仙森
浏览 144回答 2
2回答
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python