谷歌搜索网络抓取与python中的关键字列表

我正在尝试通过使用名称列表作为输入并在DataFame中获取数据集来在Google搜索上进行网络抓取。我以前使用硒进行网络抓取,我很难使用循环来构建语法,以运行名称列表作为输入,以获取结果并抓取每个页面。以下是我的Python代码:


baseUrl = 'https://www.google.com/search?q='

pluseUrl = input('CEO: ')    

url = baseUrl + quote_plus(pluseUrl)


browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")

browser.get(url)


table = browser.find_elements_by_css_selector('div.ifM9O') 


df = pd.DataFrame(columns = ['ceo', 'value'])

values =[]



for row in table:

    ceo = str(([c.text for c in row.find_elements_by_css_selector('div.kno-ecr-pt.PZPZlf.gsmt.i8lZMc')])).strip('[]').strip("''")

    value = str(([c.text for c in row.find_elements_by_css_selector('div.Z1hOCe')])).strip('[]').strip("''")


ceo = pd.Series(ceo)

value = pd.Series(value)


df = df.assign(**{'ceo': ceo, 'value': value}) 



print(df)

以下是将比尔·盖茨作为输入后的结果:


CEO: Bill gates

          ceo                                              value

0  Bill Gates  Born: October 28, 1955 (age 64 years), Seattle...


任何意见或建议将不胜感激。


冉冉说
浏览 145回答 1
1回答

ABOUTYOU

试试这个:baseUrl = 'https://www.google.com/search?q='browser = webdriver.Chrome(r"C:\Users\...\chromedriver.exe")input_list = ["Bill Gates", "Elon Musk", "Warren Buffet"]output = {}def scrape_ceo_list(list_of_ceo):     for ceo in list_of_ceo:          browser.get(baseUrl + ceo)          // query selectors, dataframes etc as per original code          // ...          output[ceo] = dfoutput现在是数据帧的字典,CEO 名称作为字典键。
打开App,查看更多内容
随时随地看视频慕课网APP

相关分类

Python