本文介绍了Jupyter Notebook的安装方法、创建和打开新的Notebook文件以及基本操作,帮助读者快速上手并进行notebook实战。文章详细讲解了从基础操作到数据可视化和项目实践的全过程,适合新手入门学习。
Jupyter Notebook 基本概念Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含实时代码、公式、可视化和解释性文本的文档。它支持多种编程语言,但最常用的是 Python。Jupyter Notebook 为用户提供了交互式的编程环境,非常适合数据科学、机器学习和教学场景。
Jupyter Notebook 安装方法-
安装 Anaconda 或 Miniconda
Anaconda 是一个包含了 Python 和 R 语言大量包的大数据处理套件,而 Miniconda 是 Anaconda 的压缩版本,仅包含了 Python 和 conda,方便用户根据需要自行安装其他库。推荐使用 Anaconda,因为它已经预先配置了 Jupyter Notebook。
# 下载并安装 Anaconda wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh bash Anaconda3-2021.11-Linux-x86_64.sh
-
安装独立的 Jupyter Notebook
如果不使用 Anaconda,也可以通过 pip 或 conda 单独安装 Jupyter Notebook。
# 使用 pip 安装 pip install notebook # 使用 conda 安装 conda install notebook
创建新的 Jupyter Notebook 文件的方法如下:
-
通过命令行创建
在终端中输入以下命令:
jupyter notebook
这将启动 Jupyter Notebook 服务器,并在默认浏览器中打开
http://localhost:8888
。 -
通过浏览器创建
在 Jupyter Notebook 界面的左侧导航栏中,点击
New
按钮,选择Python 3
即可创建一个新的 Notebook 文件。
细胞(Cell)的创建和编辑
每个 Jupyter Notebook 文件由多个细胞组成。每个细胞可以包含代码、文本、公式等。创建新的细胞的方法如下:
-
创建新的代码单元格
- 单击当前单元格下方的空格。
- 选择菜单栏中的
Insert -> Insert Cell Below
。 - 在当前单元格上方的空格点击,选择
Insert -> Insert Cell Above
。
-
创建新的 Markdown 单元格
- 选择
Insert -> Insert Markdown Cell Below
或Insert -> Insert Markdown Cell Above
。
- 选择
运行代码单元格
运行代码单元格的方法如下:
-
点击运行按钮
在 Jupyter Notebook 的工具栏中,点击
Run
按钮。 -
使用快捷键
可以使用快捷键
Shift + Enter
来运行当前单元格并跳转到下一个单元格。
如何注释和取消注释代码
Python 代码中的注释使用 #
符号。可以使用 #
来注释一行代码,或者添加多行注释。
# 这是一行注释
print("Hello, world!")
# 多行注释
"""
这是一个多行注释
可以包含多行文本
"""
print("Hello, world!")
要取消注释,只需删除注释符号 #
。
使用 Markdown 单元格写明注释和文档
Markdown 是一种轻量级标记语言,可用于编写结构化的文本。在 Jupyter Notebook 中,可以通过 Markdown 单元格来编写文档或者注释。
# 标题
## 次级标题
### 三级标题
这是普通文本。
这是**加粗**文本。
这是*斜体*文本。
这是`代码`文本。
- 列表项1
- 列表项2
- 子列表项1
- 子列表项2
[链接文本](https://www.example.com)
| 列 | 列 | 列 |
| --- | --- | --- |
| 单元格1 | 单元格2 | 单元格3 |
| 单元格4 | 单元格5 | 单元格6 |
常用快捷键
快速运行代码单元格
Shift + Enter
:运行当前单元格并跳转到下一个单元格。Ctrl + Enter
:运行当前单元格并在原地保持。
快速添加新细胞
Shift + M
:合并选中的单元格。B
:在当前单元格下方添加新单元格。A
:在当前单元格上方添加新单元格。
快速切换细胞类型
M
:将单元格切换到 Markdown 类型。Y
:将单元格切换到代码类型。
如何保存 Notebook
Ctrl + S
:保存当前 Notebook。File -> Save and Checkpoint
:保存并创建新的检查点。
Python 基本数据类型
Python 的基本数据类型包括整型、浮点型和字符串等。
# 整型
a = 10
print(type(a))
# 浮点型
b = 10.0
print(type(b))
# 字符串
c = "Hello, world!"
print(type(c))
数组和列表的基础操作
Python 中的列表是可变的序列,数组则通过 NumPy 库实现。下面是一些基本操作示例。
# 创建列表
list1 = [1, 2, 3, 4, 5]
print(list1)
# 列表切片
list2 = list1[1:3]
print(list2)
# 列表添加元素
list1.append(6)
print(list1)
# 创建数组
import numpy as np
array1 = np.array([1, 2, 3, 4, 5])
print(array1)
# 数组切片
array2 = array1[1:3]
print(array2)
# 数组添加元素
array1 = np.append(array1, 6)
print(array1)
Pandas 库的基础使用
Pandas 是 Python 中一个非常流行的库,用于数据分析和数据操作。
# 导入 Pandas
import pandas as pd
# 创建一个 DataFrame
data = {
'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [24, 27, 23],
'City': ['Beijing', 'Shanghai', 'Guangzhou']
}
df = pd.DataFrame(data)
print(df)
# 选择列
print(df['Name'])
# 选择行
print(df.iloc[0])
# 去掉重复行
df.drop_duplicates(inplace=True)
print(df)
如何导入和导出数据
Pandas 提供了多种方法来导入和导出数据。
# 从 CSV 文件导入数据
df_csv = pd.read_csv('data.csv')
print(df_csv)
# 从 Excel 文件导入数据
df_excel = pd.read_excel('data.xlsx')
print(df_excel)
# 导出数据到 CSV 文件
df.to_csv('output.csv', index=False)
# 导出数据到 Excel 文件
df.to_excel('output.xlsx', index=False)
数据可视化入门
Matplotlib 的基础使用
Matplotlib 是一个 Python 的 2D 图形库,可以生成出版质量级别的图像。
import matplotlib.pyplot as plt
# 创建一个简单的折线图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
plt.plot(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Simple Line Chart')
plt.show()
Seaborn 库的基础操作
Seaborn 是基于 Matplotlib 的统计图形库,可以生成更为美观的统计图表。
import seaborn as sns
# 创建一个简单的柱状图
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
sns.countplot(data)
plt.title('Simple Bar Chart')
plt.show()
如何在 Notebook 中展示图表
在 Jupyter Notebook 中展示图表的方法如下:
import matplotlib.pyplot as plt
# 生成一个简单的折线图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
plt.plot(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Simple Line Chart in Notebook')
plt.show()
常见图表类型
- 折线图
- 柱状图
- 散点图
import matplotlib.pyplot as plt
# 折线图
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])
plt.show()
# 柱状图
y = [3, 1, 2, 4, 5]
plt.bar(range(len(y)), y)
plt.show()
# 散点图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
plt.scatter(x, y)
plt.show()
项目实践
一个简单的数据分析项目案例
以下是一个简单的数据分析项目案例,包括数据导入、数据清洗、数据分析和可视化。
# 导入库
import pandas as pd
import matplotlib.pyplot as plt
# 导入数据
data = pd.read_csv('data.csv')
# 数据清洗
data.dropna(inplace=True) # 删除缺失值
# 数据分析
mean_age = data['Age'].mean()
print(f'Mean Age: {mean_age}')
# 数据可视化
plt.hist(data['Age'])
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()
练习任务和解答
-
任务
导入一个包含销售数据的 CSV 文件,并绘制一个柱状图来表示不同区域的销售总额。
-
解答
import pandas as pd import matplotlib.pyplot as plt # 导入数据 data = pd.read_csv('sales_data.csv') # 数据清洗 data.dropna(inplace=True) # 数据分析 total_sales_by_region = data.groupby('Region')['Sales'].sum() # 数据可视化 total_sales_by_region.plot(kind='bar', color='skyblue') plt.xlabel('Region') plt.ylabel('Total Sales') plt.title('Total Sales by Region') plt.show()
如何组织和管理 Notebook 中的代码和项目文件
-
创建一个新的 Notebook
在 Jupyter Notebook 中创建一个新的 Notebook 文件,命名为
Project.ipynb
。 -
导入项目文件
在 Notebook 中导入所需的项目文件,如 CSV 文件、Excel 文件等。
-
划分 Notebook 模块
将 Notebook 划分为多个模块,每个模块负责一个功能,如数据导入、数据清洗、数据分析和数据可视化。
# 数据导入模块
import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
# 数据清洗模块
data.dropna(inplace=True)
print(data.head())
# 数据分析模块
mean_age = data['Age'].mean()
print(f'Mean Age: {mean_age}')
# 数据可视化模块
import matplotlib.pyplot as plt
plt.hist(data['Age'])
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()
-
保存和导出结果
将最终的分析结果导出为 CSV 或 Excel 文件,或者保存为图像文件。
# 导出分析结果
data.to_csv('analyzed_data.csv', index=False)
# 导出图表
plt.savefig('age_distribution.png')
``
通过以上步骤,可以有效地组织和管理 Jupyter Notebook 中的代码和项目文件,使项目更加清晰和易于维护。