协会聚焦 | 为什么需要数据目录?构建数据资产目录的重要意义

数据治理发展已有很长一段时期,从元数据管理到数据质量管理,企业都在建设数据治理的项目。但是,如果细究则不难发现,很多企业数据治理项目做得怎么样?发挥了怎样的业务价值和效益?答案也许未必尽如人意,为什么会造成这样的情况呢?下面协会君为你分析总结。

数据治理项目只是面对 IT 人员的,并不是面对业务人员的。如果一个项目不是面对业务人员的,就难以发挥业务价值,业务人员无法使用,往往是不可能获得成功的。因此,近年来,建设数据目录的热潮兴起,数据目录就是为了帮助业务人员以及数据科学家,解决寻找数据、了解数据、优化数据以及使用数据的难题。

协会聚焦 | 为什么需要数据目录?构建数据资产目录的重要意义

什么是数据目录

数据目录是以表格、文件、报告等形式存在于公司各种源系统中的所有数据资产的系统列表。打个比方,我们用书来比喻数据。大家都知道图书馆的图书目录,我们过去进到图书馆借书,首先就要去查找图书目录。如果一个图书馆那么乱的话,相信就连图书管理员也无法找到想要的书吧?如果一个企业的数据库管理很乱,那么就连数据库管理员可能也无法找到数据了。如果一个图书馆已经分门别类摆放整齐了,就像一个企业的数据,结构化的和非结构化的,都分别在数据库里或大数据平台上,放得整整齐齐了。

这时候在配上一张一张的书卡,书卡上写了一些什么呢?往往有书的名字、书的简介、书的作者、书的出版年份,还有书的类别,比如是物理类的还是化学类的;书的属性,比如是工具书类的还是文艺书类的;最重要的是书的具体位置,它是在图书馆的哪一排的哪一层的哪一格里。有了这张书卡,我们就可以轻松地找到这本书并借到这本书了。

数据目录可以解决哪些问题

与过去相比,想从如今前所未有的数据海洋中找到正确的数据更加困难。同时,关于数据的监管条例和法规(例如 GDPR)也比过去更多、更严格。在这一背景下,除了数据访问之外,数据治理也成为了一个严峻的挑战。您不仅要了解当前您所拥有数据的类型、哪些人在移动数据、数据的用途以及如何保护数据,还必须避免过多的数据层和封装,避免数据因太难使用而毫无用处。遗憾的是,很多企业和用户在查找和访问数据上面临着很多问题,包括:

需耗费大量时间和精力查找和访问数据

展开全文

数据湖变成了数据沼泽

无通用业务词汇

难以理解“黑暗数据”的结构和类别

难以评估数据来源、质量和可靠性

无无法捕获部落知识或丢失的知识

难以重用知识和数据资产

需手动和临时进行数据准备

哪些用户应使用数据目录

数据工程师、数据科学家、数据管理员和首席数据官等用户无不受到以上数据管理问题的困扰,无不希望能够轻松访问可靠的数据。他们面临的一些常见的挑战包括:数据工程师想知道任意更改将对整个系统产生哪些影响,他们可能会问:

· 我们 CRM 应用中的模式变更将产生哪些影响?

· Peoplesoft 和 HCM 数据结构有何不同?

数据科学家希望能够轻松访问数据并进一步了解数据质量,他们想了解以下信息:

· 从何处可以找到和查看一些地理位置数据?

· 如何轻松访问数据湖中的数据?

数据管理员负责管理数据流程,关注概念、利益相关者间协议以及数据生命周期管理。他们希望了解:

· 我们是否真的在改善运营数据质量?

· 我们是否为重要的关键数据元素定义了标准?

首席数据官关心哪些人在组织中做了哪些事,一般不使用数据目录。但是,他们仍然希望了解:

· 哪些人可以访问客户的个人信息?

· 我们是否为所有数据定义了保留策略?

数据目录应当具备哪些功能

一个优秀的数据目录应当具备以下功能:

01数据搜索和发现

数据目录应当具备灵活的搜索和过滤选项,从而赋能用户快速找到相关数据集,以实施数据科学、分析或数据工程;按照数据资产的技术层级来浏览元数据。此外,如支持用户输入技术信息、自定义标签或业务术语,数据目录可以进一步改善搜索功能。

02从各种数据源收集元数据

请确保您的数据目录可以从各种互联数据资产中收集技术元数据,包括对象存储、自治驾驶数据库、本地部署系统等等。

03元数据管理

数据目录应支持主题专家通过企业业务术语表、标签、关联、用户自定义注释、分类、评级等形式来贡献业务知识。

04自动化和数据智能

对于大规模数据,人工智能和机器学习通常必不可少。因此,数据目录应利用 AI 和机器学习技术来处理所收集的元数据,让所有可以自动化的手动任务都实现自动化。此外,人工智能和机器学习还可以切实增强数据功能,例如为数据目录用户以及现代化数据平台上其他服务的用户提供数据建议。

05企业级功能

您需要利用强大的企业级功能来正确使用您至关重要的数据资产,例如身份与访问管理功能以及基于 REST API 的重要功能。同时,这还意味着客户和合作伙伴可以贡献元数据(例如自定义收集器),通过 REST 公开其应用中的数据目录功能。

协会总结

有了数据目录,这些问题就能迎刃而解。未来,数据目录已不再仅仅是锦上添花,而是成为了一项必不可少的工具。

发表评论