0°

内部审计师的数据分析XI—大数据审计

本文探讨大数据分析的审计优势和方法。大数据是一个术语,用于描述包含多种数据类型的大型数据集。大数据分析允许审计员寻找隐藏的模式并识别隐藏的相关性、市场趋势和其他数据相互关系,这可以指示业务流程中提高运营效率的领域。

尽管数据一直是计算的核心,但正是这种大规模访问数据的能力扭转了大数据分析和操作的趋势,请记住,并非所有大数据都是有用的数据。将所有数据归类为大数据可能会导致一种心态,即旧数据有一天会很有用,应该保留“以防万一”。

尽管传统的交易数据量以 GB 甚至 TB 计,但大数据包括非结构化数据,例如文本、音频和视频,并且可能达到 PB(到 1,024 TB)甚至 EB(1,024 PB)。例如:

• 据估计,某企业数据库中拥有超过 2.5 PB 的数据。

• 某平台,有两个仓库,估计超过 50 Pb。

在分布式计算系统中部署大量小型廉价服务器通常比购买具有相同计算能力的单台机器更经济可行,从而使大数据的操作更具成本效益。

有效地使用大数据将改变公司识别客户群并与客户群建立联系的方式。在他的文章中,道格·莱尼*进行分类大数据为三V的范式内的工作:

•容量——数据的大小

•速度——新传入数据的速度

•多样性——数据格式和类型的变化

这与所需的同时处理量(并发性)相结合。

研究表明,使用有效数据分析作为决策基础的组织比不使用的组织更有效率。

传统的数据分析软件,例如电子表格和关系数据库,通常设计为在单台机器上使用。为了能够扩展到前所未有的规模,需要构建可以在机器集群上运行的系统。

在商业领域,大数据可以为许多问题提供答案,对于传统的分析角色来说,可能太多了。因此,要对大数据分析带来的机会进行竞争性开发,就必须关注分析师的技能和教育。

在政府部门,利用信息和通信技术 (ICT) 来改善公共部门服务始于整个电子政务概念。事实证明,这种使用 ICT 的政府服务转型是一项复杂且成本高昂的任务,通常与公共服务自动化以及导致智慧城市概念的业务系统集成相结合。

推动此类干预的举措基本上基于大数据。在当今世界,公共服务提供与通过社交媒体、移动计算、智能手机等利用实时、大量、非结构化信息的公民参与密不可分。

进入媒体的一个新概念是物联网 (IoT),指的是智能设备网络,其中包括传感器以

测量他们周围的环境;物理上作用于环境的执行器,例如打开门;处理器来处理和存储生成的大量数据;中继信息的节点;和协调器来帮助管理这些组件的集合。

大数据管理在支持所有这些领域的决策方面发挥着核心作用,因为它能够对人员进行剖析和对个人信息进行三角测量。因此,大数据分析提供了解决公共服务提供中的一些基本问题的机会。

在线分析处理 (OLAP)

由于涉及的数据量庞大,传统的二维数据库管理系统无法以可接受的方式处理大数据。这导致了在线分析处理的发展。使用 ODBC,可以从现有的关系数据库导入数据,以创建具有 OLAP 功能的多维数据库。多维性质导致形成 OLAP 多维数据集,以便组织数据并促进数据之间关系的表达。大多数大型供应商(包括 IBM、Microsoft、Oracle 和 SAP)以及专业供应商(包括 Jedox 和 Infor)以及开源社区提供的软件都提供 OLAP 服务器。

使用适当的软件工具,可以通过索引、缓存和优化存储技术在大容量数据中实现高速查询性能。但是,它确实存在无法立即将大量数据构建为可用格式的问题,并且考虑到此类数据加载所需的大量时间,OLAP 数据通常只涉及处理更改的数据,而不是重新处理整个数据库。

近年来,OLAP 的变体包括以下内容:

•ROLAP——使用关系数据库和专门的模式来促进对数据库内最低级别细节的询问,从而绕过对数据立方体的需求。

•HOLAP——涉及一种混合解决方案,可促进用于不太详细的数据的专用存储和用于大量数据的关系数据库。这允许连接关系数据源和数据立方体。

此类服务器的询问查询语言将取决于所选的服务器,但通常包括以下内容:

• XML(可扩展标记语言)——它定义了编码文档的规则,并以标准化的形式弥合了人类可读和机器可读的差距。

• OLE-DB(对象链接和嵌入,数据库)——来自 Microsoft 的应用程序接口 (API),有助于以统一方式访问来自多个源的数据。

• MDX(多维表达式)——一种使用专门语法处理存储在 OLAP 多维数据集中的多维数据的查询语言。它最初由 Microsoft 引入,此后被大多数 OLAP 供应商采用作为事实上的标准。

• LINQ(语言集成查询)——同样来自Microsoft,这是 C+ 和 Visual Basic 的扩展,使用标准模式查询数据,其形式易于非技术审计员学习,旨在支持几乎任何类型的数据存储。

大数据结构

在数据仓库环境中处理大量数据时,通常的查询结构可能不适用。当面对典型的关系数据库时,审计分析通常是针对通过主键(PK)和外键(FK)结构相互关联的规范化数据库表的中心进行的。在数据仓库环境中,星型模式是组织数据的常用方法。该概念基于与周围维度表相关联的中央详细事实表,因此:

• 事实表——大量的事实积累,例如销售。这些表通常仅作为插入维护。

• 维度表——包含有关事实表中涉及的实体的信息的较小表。这些表通常是静态的。

然后可以将模式累积成立方体形式,表示来自给定模式内的给定查询的预计算结果。查询将对应于专门的 OLAP 操作,例如上卷、下钻或切片。

从审计的角度来看,OLAP 技术促进了一种具有极大分析灵活性的多维数据查询方法,主要在以下领域:

• 多角度数据观察——促进快速识别数据集中的可疑方面

• 可疑项目的数据钻取——能够对引起审计师怀疑的数据观察项目进行更广泛的分析

• 创建高级数据模型——促进审计数据结构的预创建,通过减少数据收集时间来提高审计效率

OLAP技术不应被视为所有信息分析问题的答案。虽然它在快速回答已知问题方面非常有效和高效,但可能难以快速适应新数据类型和新问题,并且当数据量达到 PB 级时可能会证明成本很高。

其他大数据技术

其他数据结构化技术正在迅速注入市场,包括以下内容。

NoSQL数据库专为具有高可用性的巨大水平扩展而设计,并且通常针对数据检索和附加进行了高度优化。这些数据库提供了数据模型的灵活性,便于数据结构的存储和组合以及数据模式的修改,而无需关闭数据库。由于其性质和对可扩展性的关注,数据库可以进行分区或分片,从而允许将数据库部署在内部或云中,并促进几乎无限的增长。在性能方面,NoSQL 数据库旨在在吞吐量和延迟期间提供高性能。此类数据库中的权衡可能是传统的关系功能,具体取决于所选的包。在非关系型数据库中,存在两种主要架构:

• 键值数据存储——这种架构允许通过单个键访问数据库中的每条记录,并且数据不需要匹配预先存在的模式。这种架构允许非常快的访问性能;但是,它们通常缺乏按值查询数据的能力。

• 文档存储——这些提供查询文档本身的能力。当要检索的数据最适合以单文档形式(例如网站内容)使用或数据库架构非常流畅时,这种架构非常有用。

分析 RDBMS,例如 Microsoft SQL 服务器或 Oracle,专为批量加载而设计,并针对快速查询下载进行了优化。他们的优势是技术成熟,有多种可用技术。这些结构在更新数据的同时保持数据完整性非常有效,并且对于集合操作和关系代数非常有效。由于使用固定模式(写入时模式)和使用完整事务日志的潜在高开销,可能会出现问题。由于使用了索引方法,新数据的插入可能会很慢;然而,RDBMS 是基于一种久经考验的设计,其中每条数据记录都经过规范化,并且理想情况下只在一个地方存储一次。只要数据看起来总是一样的并且保持在特定的大小限制内,这个系统就是有效的。

Hadoop是一种低成本且可靠的横向扩展架构,非常适合分布式计算,它正在成为大数据处理市场的主要参与者。从审计的角度来看,使用 Hadoop 等技术,包含庞大的非结构化数据集并以临时方式处理数据,可以使用Hadoop 的 MapReduce 框架等工具来回答有关海量数据的问题。

它利用跨商品集群的大量冗余存储容量,具有许多可用的发行版,例如 Apache、Hortonworks、HADAPT等。以 Apache 为例,有许多应用程序可用于Hadoop 实现,包括:

• Apache Hbase——Hadoop 数据库本身,包括随机、实时读/写访问

• Apache Zookeeper——分布式协调服务

• Apache Whirr——用于在云中运行 Hadoop 的库

• Flume——一种用于收集和聚合日志和事件数据的分布式服务

• Apache Pig——一种用于表达数据分析程序的高级语言

• Apache Hive — 类似 SQL 的语言和元数据存储库

• Sqoop——用于将 Hadoop 与RDBMS 集成

• Hue——一个基于浏览器的桌面界面,用于与 Hadoop 交互

与需要在加载数据之前设计数据模式的传统数据库结构不同,Hadoop 使用“读取时模式”这一概念,允许将数据复制到文件存储而无需转换为数据库结构。在询问期间使用串行器/解串器 (SerDe) 来提取列 — 一种称为后期绑定的技术。这样做的优点是数据流可以随时发生,并且一旦 SerDe 更新以解析信息,就会追溯地出现在 Hadoop 中。

Hadoop与 Hadoop 分布式文件系统 (HDFS) 一起促进了跨不同机器集合的数据处理任务的拆分。用户不需要确切知道在 Hadoop 集群中的哪个特定节点上有哪些数据可用。HDFS 还旨在通过数据复制提供容错能力。因此,如果 Hadoop 集群中的单个节点不可用,数据仍将在集群中其他地方的 Hadoop 已知位置可用。

在普通的 Hadoop 安装中,MapReduce 作为接口提供。然后可以使用审计员首选的脚本语言编写 MapReduce 工作流,例如,将大量原始文本文件集合中的值从一种数据类型转换为另一种数据类型,以供将来分析。

审计员的一个复杂问题是 Hadoop 对特定术语的使用,例如,使用 MapReduce 是一个三阶段过程,使得:

• 映射阶段——将数据拆分成许多由特定键标识的分片

• 随机排序——在集群内的同一节点上聚合包含相同键的数据分片

• Reduc阶段——从各个节点获取打乱的数据,在本地机器上处理它,并产生最终结果

这种行话可能会让第一次在这种环境中工作的审计员感到困惑。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论