李翔-大数据技术

Big data technology!

第5章 数据分析和挖掘

5.1 项目背景

在数字经济和电子商务蓬勃发展的背景下,电商平台每天积累海量用户行为和交易数据。如何从这些原始数据中挖掘价值信息,是企业运营优化和个性化服务的关键。因此,基于真实业务逻辑构建数据挖掘项目,已成为数据分析实训的重要方向。

本项目以模拟电商平台六张核心数据表为基础(用户、商品、订单、订单明细、浏览日志、商品评分),围绕“用户行为洞察、商品热度分析、个性化推荐”等典型业务问题,开展数据挖掘实训。

  1. 数据来源设计合理,结构贴近业务

    • 模拟数据覆盖了电商平台的完整业务流程:从用户注册、商品浏览、下单支付到评分反馈。

    • 数据表之间具有关联关系,便于开展真实业务场景下的多维度分析。

  2. 任务类型涵盖典型挖掘应用

    • 包括用户转化率分析、商品偏好洞察、行为特征分群、热销商品识别、评分驱动推荐等。

    • 涉及数据清洗、特征提取、分组统计、可视化呈现等完整流程。

  3. 教学目标聚焦能力培养

    • 训练学生掌握从“数据理解 → 分析建模 → 图表展示 → 结果解释”的完整分析链条。

    • 培养学生的业务理解能力、数据处理能力与可视化表达能力,为后续就业打下基础。

本项目既是教学中的数据挖掘入门实践平台,也是学生理解电商平台运营逻辑、掌握数据分析方法的重要实训载体。通过该项目,学生可以初步具备用数据支撑商业决策的能力,提升岗位适应力与数据素养。


5.2 技能图谱

数据分析的基本步骤:

数据获取 → 数据清洗 → 数据预处理与特征工程 → 数据分析与建模 → 结果展示



5.2 项目目标

本项目旨在引导学生围绕电商业务数据,完成一系列具有代表性的数据挖掘分析任务,具体目标包括:

  1. 数据理解与结构构建能力

    • 能够理解并梳理多张业务数据表的字段意义及相互关系。

    • 能构建用户、商品、行为的完整业务路径图。

  2. 数据处理与分析能力

    • 掌握常见数据清洗与转换方法,提升数据质量。

    • 掌握用户行为分析、商品热度统计、评分推荐等挖掘任务的实现方式。

  3. 可视化与表达能力

    • 熟练运用 Python + Pandas + Matplotlib 进行图表绘制。

    • 能清晰表达分析结论并撰写可读性强的报告。

  4. 项目实践与团队协作能力

    • 能在项目中分工合作,按模块开展任务,完成项目成果展示。

    • 培养解决问题的实践意识和逻辑思维能力。



5.3 项目数据结构

本项目模拟电商平台典型数据结构,共六张核心数据表,字段真实、逻辑严谨:


表名数据说明示例字段(部分)
users用户信息表user_id, user_name, gender, age, register_date, city, province
products商品信息表product_id, product_name, category, unit_price, brand
orders订单信息表order_id, user_id, order_date, payment_method, order_status, delivery_city, delivery_type
order_items订单明细表(多对多)item_id, order_id, product_id, quantity, discount
browsing_logs浏览行为日志表log_id, user_id, product_id, browse_time, action_type
product_ratings商品评分表(用户对商品评分反馈)user_id, user_name, gender, age, register_date, city, province


所有表均通过外键进行关联,支持多维度组合分析。



5.4 项目实施流程

根据教学安排依次完成以下典型分析任务:


任务主题使用数据表核心分析点
用户转化率分析browsing_logs + orders浏览→加购→下单→付款各环节流失率计算
用户偏好分析users + browsing_logs + products不同性别/年龄段用户的品类/品牌喜好
用户群体画像展示users + orders构建典型用户画像(如“90后女性”高购群体)
商品热销榜与组合分析orders + order_items + products高销量TOP商品、常被组合购买的商品统计
简易推荐系统product_ratings + users + products不同人群偏好评分Top商品,构建推荐列表



5.5 实验


实验01:用户转化率分析

一、任务要求

分析用户在“浏览 → 加购 → 下单 → 成交”四个环节的转化情况。

二、任务目标

找出用户在哪一步流失最多,为电商平台优化流程提供参考。

三、数据说明

  • browsing_logs.csv:包含用户行为(浏览、加购、下单、成交)。

四、分析思路

  1. 从日志中读取用户行为数据,清洗缺失值与重复值;

  2. 按行为阶段(浏览、加购、下单、成交)统计去重后的用户数;

  3. 以“浏览人数”为基准,计算各阶段的转化率;

  4. 通过水平柱状图直观展示各阶段人数与转化率的变化。

五、实现代码

image.png




实验02:用户偏好分析

一、任务要求找出全体用户最喜欢的商品类别 Top5(基于“浏览/加购/下单/成交”四类有效行为的出现次数)。

二、任务目标为首页选品与推荐位提供总体偏好参考(不区分人群画像)。

三、数据说明

  • browsing_logs.csv:用户行为日志(含 user_id, product_id, action_type);

  • products.csv:商品信息(含 product_id, category)。

说明:本版本未用到 users.csv;如需做人群细分,可在后续扩展中加入。

四、分析思路

  1. 从行为日志中筛选四类有效行为(浏览/加购/下单/成交),并做去缺失、去重

  2. product_id 关联商品表获取 category

  3. category 统计出现次数,降序取 Top5

  4. 柱状图展示 Top5 类别及其出现次数(≈受欢迎度)。

五、实现代码

image.png


实验03:用户群体画像展示

一、任务要求以“90后女性用户”为例,展示该群体的省份分布情况。

二、任务目标帮助电商平台清晰了解目标用户画像特征,为区域化营销与运营提供参考。

三、数据说明

  • users.csv:包含用户性别、年龄、省份等。

四、分析思路

  1. 从用户表中计算出生年份,筛选出 1990–1999 年出生的女性用户

  2. 统计该人群在各省份的人数分布;

  3. 使用水平柱状图可视化结果,并在图中标注人数。

五、实现代码

image.png



实验04:用户满意度分析(评分分布)

一、任务要求统计用户商品评分的分布情况,并计算整体评分指标。

二、任务目标通过分析评分数据,了解用户整体满意度水平,为平台改进商品和服务提供参考。

三、数据说明

  • product_ratings.csv:包含用户对商品的评分(1~5分)。

四、分析思路

  1. 统计每个评分等级对应的人数;

  2. 计算总体的平均分、最高分和最低分,反映整体满意度特征;

  3. 使用柱状图可视化评分分布,并直观展示各等级人数差异。

五、实现代码

image.png



实验05:用户购买行为分析

一、任务要求完成一个完整流程的数据分析实验,统计不同年龄段用户的下单次数。

二、任务目标掌握“数据获取 → 数据清洗 → 数据预处理与特征工程 → 数据分析与建模 → 结果展示”的完整流程,并理解如何通过年龄段对用户下单行为进行分析。

三、数据说明

  • users.csv:用户基本信息(含 user_id、age 等);

  • orders.csv:订单信息(含 order_id、user_id 等)。

四、分析思路

  1. 数据获取:读取用户表与订单表;

  2. 数据清洗:删除关键字段缺失值(user_id、age 等);

  3. 特征工程:将用户年龄划分为年龄段;["30岁以下", "31-40岁", "41-50岁", "51-60岁", "60岁以上"]

  4. 分析建模:合并订单与用户信息,按年龄段统计下单次数;

  5. 结果展示:用柱状图展示不同年龄段用户的下单次数。

五、实现代码

image.png



实验06: 基于评分均值的推荐分析(算法入门)

一、任务要求

利用用户评分数据,体验一个最简单的推荐算法——基于评分均值的 Top-N 推荐,为特定人群推荐最受欢迎的商品。

二、任务目标

  1. 了解推荐系统的基本思路:用户 → 商品 → 评分 → 推荐

  2. 掌握分组统计、均值与计数的方法;

  3. 实现一个简化版推荐算法,为指定人群推荐 Top3 商品。

三、数据说明

  • users.csv:用户信息(user_id, gender, age, …)

  • product_ratings.csv:用户对商品的评分(user_id, product_id, rating)

  • products.csv:商品信息(product_id, product_name, category)

四、分析思路

  1. 数据获取:读取用户、评分、商品三张表。

  2. 数据清洗:对评分表的关键列(user_id、product_id、rating)进行缺失值处理。

  3. 数据预处理与特征工程:筛选目标人群——20–29 岁女性用户;将其与评分表按 user_id 合并,得到目标人群的评分数据子集。

  4. 数据分析与建模:按 product_id 统计平均评分(avg_rating)与评分人数(rating_count)

  5. 推荐 Top3:仅保留 rating_count ≥ 10 的商品,按 avg_rating 降序取前三名,并补充商品名称。

  6. 结果展示:输出推荐商品的 product_name、avg_rating、rating_count

五、实现代码

image.png









发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-BlogPHP 1.7.3

版权:李翔
备案/许可证编号为:新ICP备2024006115号-1