大数据竞赛模拟赛题2


口罩厂亏损案例

数据清洗

import pandas as pd
mask_data = pd.read_csv('./工作/mask_data.csv', encoding = 'utf-8')
print(mask_data.info())

# 删除所有缺失值
mask_data = mask_data.dropna()
print(mask_data.info())

# 删除指定列
mask_data = mask_data.dropna(subset=['订单量'])
print(mask_data.info())

# 查找 mask_data 中的重复行
print(mask_data.duplicated())
print(mask_data[mask_data.duplicated()])

# 删除重复值
mask_data = mask_data.drop_duplicates()
print(mask_data[mask_data.duplicated()])

# 筛选单价小于等于 200 的数据
mask_data = mask_data[mask_data['单价'] <= 200]
# 查看 mask_data 的描述性统计信息
print(mask_data.describe())

# 转换日期数据,并设置对应的日期格式
date_data = pd.to_datetime(mask_data['日期'], format = '%Y-%m-%d')
print(date_data)

# 提取日期数据中的月份信息
# Series.dt.year、Series.dt.month、 Series.dt.day
month_data = date_data.dt.month
print(month_data)

# 将月份数据添加到原数据中
mask_data['月份'] = month_data
print(mask_data)

# 存取
mask_data.to_csv('mask_data_clean.csv',encoding='utf-8',index = False)
mask_data_clean = pd.read_csv('mask_data_clean.csv',encoding='utf-8')
print(mask_data_clean)

数据分析与图标展示

# 获取各月总销售额
sales_income = mask_data_clean.groupby('月份')['销售额'].sum()

# 画出各月总销售额的折线图
sales_income.plot(kind = 'line', figsize = (7, 7), title = '各月总销售额趋势图')

# 获取各月总订单量
order_number = mask_data_clean.groupby('月份')['订单量'].sum()

# 画出各月总订单量的折线图
order_number.plot(kind = 'line', figsize = (7, 7), title = '各月总订单量趋势图')

# 获取每月平均单价
month_price = mask_data_clean.groupby('月份')['单价'].mean()

# 画出各月平均单价的折线图
month_price.plot(kind = 'line', figsize = (7, 7), title = '各月平均单价趋势图')

# 获取各月各省总订单量
month_order1 = mask_data_clean.groupby(['省', '月份'])['订单量'].sum()
month_order1_df = month_order1.unstack()

# 根据month_order1_df绘制多条折线图,标题为'各月各省总订单量趋势图'
month_order1_df.plot(kind = 'line', figsize = (7, 7), title = '各月各省总订单量趋势图')

# 获取各月各省总订单量
month_order2 = mask_data_clean.groupby(['月份', '省'])['订单量'].sum()
month_order2_df = month_order2.unstack()
# 根据month_order2_df绘制多条折线图,标题为'各省各月总订单量趋势图'
month_order2_df.plot(kind = 'line',figsize = (7, 7), title = '各省各月总订单量趋势图')

print(month_order1)

plt.show()

文章作者: 彭韦浩
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 彭韦浩 !
  目录