Python语法简单,易于理解和学习,代码量少,开发效率高。
Python可以在多种操作系统上运行,包括Windows、Linux、MacOS等,具有很好的跨平台性。
Python是一种面向对象的编程语言,支持面向对象的编程范式,使得代码结构清晰,易于维护和扩展。
Python标准库中包含了众多的模块和函数,可以方便地进行各种操作,如文件操作、网络编程、数据库访问等。
Python有大量的第三方库,可以轻松实现各种功能,如Web开发、数据分析、机器学习、科学计算等。
Python解释器可以直接将源代码编译成字节码并执行,执行速度较快,开发效率高。
Python是一种开放源代码的编程语言,拥有强大的社区支持,有大量的教程、文档和示例可供参考和学习。
在Python官网上下载安装包
双击下载的安装包,按照提示进行安装。在安装过程中,可以选择将Python添加到系统环境变量中,以便在任意目录下执行Python命令。
如果在安装过程中没有将Python添加到系统环境变量中,需要手动配置Python环境变量。在Windows系统下,可以按照以下步骤进行配置:
打开命令提示符或终端,输入“python”,按下回车键,如果出现Python解释器的版本信息,则说明Python安装成功。
Python的语法简单易学,主要包括代码块、注释、变量、运算符、条件语句、循环语句、函数、类等。
首先需要安装Python和相关的库,如requests、beautifulsoup4、lxml、selenium等。可以使用pip命令来安装这些库。
确定需要抓取的目标网站和需要抓取的数据。可以使用浏览器的开发者工具来查看网站的HTML结构和数据。
使用requests库发送HTTP请求,获取网站的HTML内容。可以使用get或post方法来发送请求,也可以设置请求头和参数。
使用beautifulsoup4和lxml库解析HTML内容,提取需要的数据。可以使用CSS选择器或XPath表达式来定位HTML元素。
将抓取的数据存储到本地文件或数据库中。可以使用csv、json、sqlite等库来存储数据。
datetime 模块提供了处理日期和时间的类和方法,包括 date、time、datetime、timedelta 等。
例如,获取当前日期和时间:
import datetime
now = datetime.datetime.now()
print(now)
输出结果:
2021-08-25 14:46:20.939764
获取指定日期和时间:
import datetime
dt = datetime.datetime(2021, 8, 25, 14, 46, 20)
print(dt)
输出结果:
2021-08-25 14:46:20
time 模块提供了处理时间的函数和方法,包括 sleep、time、gmtime、localtime、strftime 等。
例如,获取当前时间戳:
import time
timestamp = time.time()
print(timestamp)
输出结果:
1629889820.939764
calendar 模块提供了处理日历的函数和方法,包括 month、monthcalendar、isleap 等。
例如,获取指定月份的日历:
import calendar
cal = calendar.month(2021, 8)
print(cal)
输出结果:
August 2021
Mo Tu We Th Fr Sa Su
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31
pytz 模块提供了处理时区的功能,可以获取各个时区的信息并进行转换。
例如,获取当前时区和指定时区的时间:
import datetime
import pytz
# 获取当前时区
local_tz = pytz.timezone('Asia/Shanghai')
now = datetime.datetime.now(local_tz)
print(now)
# 转换时区
utc_tz = pytz.timezone('UTC')
utc_time = now.astimezone(utc_tz)
print(utc_time)
输出结果:
2021-08-25 14:46:20.940764+08:00
2021-08-25 06:46:20.940764+00:00
列表是一种可变的有序序列,用方括号 [] 表示,其中的元素可以是任意类型的数据。列表支持索引和切片操作,可以进行添加、删除、修改、排序等多种操作。
例如,创建一个列表并进行操作:
my_list = [1, 2, 3, 'hello', 'world']
print(my_list[0]) # 输出第一个元素
print(my_list[2:4]) # 输出第三个和第四个元素
my_list.append(4) # 添加一个元素
my_list.remove('hello') # 删除一个元素
my_list[0] = 0 # 修改一个元素
my_list.sort() # 排序
print(my_list) # 输出整个列表
输出结果:
1
[3, 'hello']
[0, 2, 3, 'world', 4]
元组是一种不可变的有序序列,用圆括号 () 表示,其中的元素可以是任意类型的数据。元组支持索引和切片操作,但不支持添加、删除、修改等操作。
例如,创建一个元组并进行操作:
my_tuple = (1, 2, 3, 'hello', 'world')
print(my_tuple[0]) # 输出第一个元素
print(my_tuple[2:4]) # 输出第三个和第四个元素
输出结果:
1
(3, 'hello')
字典是一种可变的无序序列,用大括号 {} 表示,其中的元素是键值对,键和值可以是任意类型的数据。字典支持根据键进行索引和修改操作,可以进行添加、删除等多种操作。
例如,创建一个字典并进行操作:
my_dict = {'a': 1, 'b': 2, 'c': 3}
print(my_dict['a']) # 输出键 'a' 对应的值
my_dict['d'] = 4 # 添加一个键值对
my_dict.pop('b') # 删除一个键值对
my_dict['a'] = 0 # 修改一个键值对
print(my_dict) # 输出整个字典
输出结果:
1
{'a': 0, 'c': 3, 'd': 4}
Python 中的虚拟环境是一种创建独立 Python 环境的方式,用于解决不同项目之间依赖包的冲突问题。虚拟环境可以让不同的项目在同一台计算机上使用不同的 Python 版本和依赖包,避免全局 Python 环境的混乱和不稳定。Python 中常用的虚拟环境工具包括 venv、virtualenv 和 conda 等,下面以 venv 为例介绍如何创建和使用虚拟环境。
要创建一个新的虚拟环境,可以使用 venv 模块创建一个新的目录,然后在该目录中创建一个新的 Python 环境。例如,创建一个名为 myenv 的虚拟环境:
python -m venv myenv
这将在当前目录下创建一个名为 myenv 的目录,其中包含一个新的 Python 环境。
要使用虚拟环境,需要先激活它。在 Windows 上,可以运行以下命令激活虚拟环境:
myenv\Scripts\activate.bat
在 Linux 或 macOS 上,可以运行以下命令激活虚拟环境:
source myenv/bin/activate
激活虚拟环境后,终端提示符前会显示环境名称,表示已经进入了虚拟环境。
进入虚拟环境后,可以使用 pip 命令安装需要的依赖包,例如:
pip install pandas
这将在虚拟环境中安装 pandas 包,而不会影响全局 Python 环境。
要退出虚拟环境,可以运行以下命令:
deactivate
这将退出虚拟环境,返回到全局 Python 环境。