在本案例中,我们将使用 Cloud 对来自天池实验室的淘宝用户购物行为数据集[1]进行分析,一起发现有趣的购物行为。
该数据集为 CSV 格式,包含了 2017 年 11 月 25 日至 2017 年 12 月 3 日之间,有行为的约一百万随机用户的所有行为(包括点击、购买、加购、喜欢)。数据集的每一行表示一条用户行为,由以下 5 列组成,并以逗号分隔:
准备工作
01下载数据集
1.访问下载淘宝用户购物行为数据集(.csv.zip)到本地,然后使用以下命令解压:
2.将解压后的数据集文件 (.csv) 压缩为 gzip 格式:
02创建外部Stage
1.登入 Cloud,并新建一个工作区。
2.在工作区中,执行以下 SQL 语句在阿里云上创建一个名为"mycsv"的外部 Stage:
3.执行以下 SQL 语句验证 Cloud 是否可访问到该外部 Stage:
03上传数据集到外部Stage
使用[2]将压缩后的数据集文件 (.csv.gz) 上传到外部 Stage。获取计算集群的连接信息,请参考连接到计算集群[3]。
<pre lang="language-javascript" codecontent="(base)%20eric%40Erics-iMac%20~%20%25%20bendsql%20–host%20tenantID–YOUR_WAREHOUSE.gw.aliyun-cn-beijing.default.databend.cn%20%5C%0A%20%20–user%3Dcloudapp%20%5C%0A%20%20–password%3D%26amp%3Blt%3BYOUR_PASSWORD%26amp%3Bgt%3B%20%5C%0A%20%20–database%3D%26amp%3Bquot%3Bdefault%26amp%3Bquot%3B%20%5C%0A%20%20–port%3D443%20–tls%0AWelcome%20to%20BendSQL%200.9.3-db6b232(2023-10-26T12%3A36%3A55.578667000Z).%0AConnecting%20to%20tenantID–YOUR_WAREHOUSE.gw.aliyun-cn-beijing.default.databend.cn%3A443%20as%20user%20cloudapp.%0AConnected%20to%20DatabendQuery%20v1.2.183-nightly-1ed9a826ed(rust-1.72.0-nightly-2023-10-28T22%3A10%3A15.618365223Z)%0A%0Acloudapp%40tenantID–YOUR_WAREHOUSE.gw.aliyun-cn-beijing.default.databend.cn%3A443%2Fdefault%26amp%3Bgt%3B%20PUT%20fs%3A%2F%2F%2FUsers%2Feric%2FDocuments%2FUserBehavior.csv.gz%20%40mycsv%0A%0APUT%20fs%3A%2F%2F%2FUsers%2Feric%2FDocuments%2FUserBehavior.csv.gz%20%40mycsv%0A%0A%E2%94%8C%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%90%0A%E2%94%82%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20file%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%E2%94%82%20%20status%20%E2%94%82%20%20%20%20size%20%20%20%E2%94%82%0A%E2%94%82%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20String%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%20%E2%94%82%20%20String%20%E2%94%82%20%20%20UInt64%20%20%E2%94%82%0A%E2%94%9C%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%BC%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%BC%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%A4%0A%E2%94%82%20%2FUsers%2Feric%2FDocuments%2FUserBehavior.csv.gz%20%E2%94%82%20SUCCESS%20%E2%94%82%20949805035%20%E2%94%82%0A%E2%94%94%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%80%E2%94%98%0A1%20file%20uploaded%20in%20401.807%20sec.%20Processed%201%20file%2C%20905.80%20MiB%20(0.00%20file%2Fs%2C%202.25%20MiB%2Fs)”>
数据导入和清洗
01创建表格在工作区中,执行以下 SQL 语句为数据集创建表格:
02清洗、导入数据
数据分析
在完成了前期的准备和数据导入之后,我们正式开始进行数据分析。
01用户流量及购物情况分析
1️⃣ 总访问量和用户数
2️⃣ 日均访问量和用户量
也可以通过使用仪表盘[4]功能,生成折线图:
3️⃣统计每个用户的购物情况,生成新表:
4️⃣复购率:两次或两次以上购买的用户占购买用户的比例
02用户行为转换率
1️⃣ 点击/(加购物车 + 收藏)/购买,各环节转化率
2️⃣ 计算一个小时完成浏览->添加到购物->并支付的用户
03用户行为习惯
1️⃣ 每天用户购物行为
也可以通过使用仪表盘[4]功能,生成折线图:
2️⃣ 每周用户购物行为
也可以通过使用仪表盘[4]功能,生成柱状图:
04基于RFM模型找出有价值用户
RFM 模型是衡量客户价值和客户创利能力的重要工具和手段,其中由 3 个要素构成了数据分析最好的指标:
1️⃣ R-(最近购买时间):R值越高,用户越活跃
2️⃣ F-(消费频率):F值越高,用户越忠诚
3️⃣用户分组
对有购买行为的用户按照排名进行分组,共划分为 5 组:
按照这个规则分别对用户时间间隔排名打分和购买频率排名打分,最后把两个分数合并在一起作为该名用户的最终评分。
05商品维度分析
1️⃣ 销量最高的商品
2️⃣ 销量最高的商品类别
06用户留存分析
开始前,创建表格""并插入数据:
1️⃣ 统计每天UV
2️⃣ 相对留存
这里计算相对于 11 月 23 日,12 月 2 号还在使用淘宝用户:
3️⃣相对新增
引用链接
淘宝用户购物行为数据集::连接到计算集群:#使用仪表盘:
关于
是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。
Cloud:
文档:
:
✨:
展会先锋:
商会协会:具有影响力的企业名录,助力你业绩高飞。
名家讲堂:具有最全老师阵容,帮您事业家庭腾飞。
全国展会,全国商会,全国协会,全国企业名录,全国就业会刊持续更新中,每天每周每月都会更新,感谢持续关注,
展会先锋;24小时客服VQ:371240006(展会名录全拼) 土豆号; yiye1314qq
持续更新中。可以充值会员下载您需要的任何资源,有问题客服24小时在线