数据标签定义是什么?
一、数据标签定义
数据标签是一种用来描述业务实体特征的数据形式。通过标签可以有效扩充业务实体的分析角度,且通过对不同标签的简单操作,便可进行数据筛选和分析。
比如对用户进行刻画时,可以从“性别”、“年龄”、“地区”、“兴趣爱好”、“产品偏好”等角度进行描述。
分析角度片面会导致很多问题,例如:某大学年度调查数据显示,本校计算机系女生中,50%都嫁给了本校男老师。该消息一经公布,就引起了校内外的巨大反响,人们对师生恋、校园恋爱议论纷纷。结果是该大学计算机系只有两名女生,其中一名女生和计算机系老师相恋结婚,由此得来的50%是真实数据。所以尽可能多的扩展分析角度,能够更全面、更准确地对分析对象进行刻画。
延伸阅读:
二、如何管理标签
(1)标签分类
标签分类的主要目的是方便用户查找标签。对标签分类的方式有很多,大致可以分为几大类:按生成方式分类、按业务主题分类、按技术特性分类、按使用情况分类。
1. 按生成方式分类
从生成方式上来看,标签可分为事实标签、模型标签以及策略标签。
事实标签是基于用户实际信息的记录,经过简单的加工而成,这种标签反应的是客观事实;
模型标签则是通过用户分析模型处理后,二次加工生成的用户洞察性标签;
策略标签是根据具体的业务分析及策略规划制定的群组性标签,供执行人员直接进行活动分组及行为洞察。
2. 按业务主题分类
主题是根据公司核心业务划分的,和业务密切相关。按业务主题划分标签,能够更有针对性的服务于业务分析使用。
3. 按技术特性分类
按标签的更新时效分类:可以分为批量更新标签和实时更新标签;
按标签的访问方式分类:可以分为批量访问和实时访问;
按标签的字段类型分类:可以分为数值类、日期类、枚举类、文本类等等。
4. 按使用情况分类
主要是为了方便用户使用标签,可分为热门标签、普通标签、冷门标签。
考虑到同一标签有可能同时隶属于不同的分类,可以从两个层面对标签进行管理,一是物理层面的管理,二是逻辑层面的管理。
(2)标签生成
标签的产生大致可分类手工产出和自动产出两类。手工产出就是通过手写SQL或建模依次产出每个标签。自动产出是一种更高效的方式,通过逻辑配置或者数据挖掘一次性产生多个标签。
要获得能给业务带来实际帮助的标签体系,我们需要在标签体系中引入“假设-测试-验证-定义”的迭代过程,通过不断的迭代挖掘与试验,才会找到可以准确刻画用户的标签体系,找到更多业务增长点。
(3)标签更新
除了少数专用型标签可能仅使用一次之外,其他绝大部分标签上线后必须持续进行更新,否则便成了僵尸标签。
按照标签更新方式,标签大致可以分为批量更新标签和实时更新标签两类。
对于实时更新标签,一旦产生标签的数据发生了变化,就需立即更新该标签。比如最后一次登录APP的时间这个实时标签,只要用户登录了APP,就把标签值更新为此次登录时间。
对于批量更新标签,不管是每天、每周还是每月更新,都是通过跑批方式进行。这里需要注意的有两点,一是为了更新方便,尽量把更新周期相同的标签放在同一个表中。二是标签更新会有先后顺序,对于特别强调逻辑一致性的业务来说,如果该业务相关的部分标签已经更新了,但另一部分还未更新,这时产出的数据结果是不准确。

猜你喜欢LIKE
相关推荐HOT
更多>>
RESTful API的命名有什么讲究?
一、RESTful API的命名有什么讲究和目录没关系,通常是框架路由接管的 request uri解析出来的(v1、v2有可能是实际的目录)restful规范/资源名/...详情>>
2023-10-18 23:56:05
文件系统和数据库是由于什么原因才选择B树或B+树建立?
一、文件系统和数据库是由于什么原因才选择B树或B+树建立索引的索引的目标是要找到数据所在的物理位置,因此用树去实现搜索数据所在物理位置,...详情>>
2023-10-18 22:55:19
mysql如果单表数据量过千万怎么办?
一、mysql如果单表数据量过千万怎么办方案概述方案一:优化现有mysql数据库。优点:不影响现有业务,源程序不需要修改代码,成本最低。缺点:有...详情>>
2023-10-18 22:33:40
数据库表名、字段名用中文有什么问题?
一、数据库表名、字段名用中文的问题1、兼容性问题某些数据库管理系统(DBMS)可能不支持使用中文作为表名和字段名,或者对于中文的支持有限。...详情>>
2023-10-18 21:09:43热门推荐
RESTful API的命名有什么讲究?
沸KEGG 怎么用?
热文件系统和数据库是由于什么原因才选择B树或B+树建立?
热mysql如果单表数据量过千万怎么办?
新什么情况下需要使用分布式数据库?
为什么Cassandra的写速度比MySQL快?
数据库表名、字段名用中文有什么问题?
数据库文件存放在NAS中,会有什么问题吗?
多线程并发访问数据库中不同记录时应该采用什么办法?
为什么mysql要额外加入一个utf8mb4数据类型,而不是原地升级utf8?
PolarDB-X与PolarDB的关键区别是什么?
Mysql、SQLite、Mongo的区别?
为什么用Go语言做Web应用开发框架?
什么是i.MXRT11xx上的串行NOR Flash双程序可交替启动?
技术干货






