selenium的使用对于新手来说十分友好,因为他避开了如今网络中的异步加载抓取的困扰,使得我们大部分的时间可以用于提取信息和存储中,下面就简单的列一些使用的代码,希望给同样初学的你有一定的参考价值。
#!/usr/bin/env python# -*- coding: utf-8 -*-__author__ = 'Lix'from selenium import webdriverfrom selenium.webdriver.common.action_chains import ActionChainsfrom selenium.webdriver.common.by import Byimport timedef selenium_example(): site_url = 'https://i.cnblogs.com/EditPosts.aspx?opt=1' driver = webdriver.Chrome() driver.get(site_url) time.sleep(3) content = driver.page_source.encode('utf-8') print driver.title print contentdef main(): selenium_example()if __name__ == "__main__": main()
这里的话你可以替换着找一些合适的网站试一下,运行的时候会自动弹出测试的浏览器(这里是谷歌浏览器),不是电脑或者其他与原因,请不要紧张。
接下来是如何利用selenium获取数据
定位元素
find_elements_by_namefind_elements_by_xpathfind_elements_by_link_textfind_elements_by_partial_link_textfind_elements_by_tag_namefind_elements_by_class_namefind_elements_by_css_selector
举例
username = driver.find_element_by_name('username')password = driver.find_element_by_name('password')