审计师的大数据分析

本文介绍了对IT系统的评估,以便确定适用于分析的证据数据的来源,以及审计员为获取,提取和转换(如有必要)转换此类数据以方便分析而可能使用的技术。

为了选择合适的获取数据的方法,至关重要的一点是,审计员必须了解数据的性质和形式。

数据表示

二进制和十六进制数据

二进制系统 所有计算机系统都以二进制模式(基数 2)存储数据。与从零到九有 10 位数字的十进制系统不同,二进制系统只有两个数字:0和1。

例如,十进制中的数字 41 表示二进制中的 100101。

二进制数11010101等价于十进制数213,计算如下:

1´1+0´2+1´4+0´8+1´16+0´32+1´64+1´128 =213

每个二进制数字称为一个位。四位组合成一个半字节,两个半字节(或 8 位)组成一个字节。

十六进制系统:尽管所有计算机数据都是二进制形式,但这些数据实际上以十六进制模式(Base 16)表示,这是紧凑和易于处理。例如,十进制中的数字 65 相当于二进制数 0100 0001。

需要注意的是,为了表示大于九的十六进制数字,使用了字符A-F,A代表10,B代表11,依此类推,F代表15。

数据是组织最宝贵的资产之一,可能会遭受盗窃、腐败、替代或操纵。

 

ASCII 和 EBCDIC

内部审计师可能检查的计算机系统中存储的绝大多数数据都由文本字符组成。由于计算机仅以二进制/十六进制格式存储所有数据(包括文本字符),因此需要一种编码结构将字符“映射”到计算机的二进制/十六进制格式。目前使用的编码结构有两种:

EBCDIC(扩展二进制编码十进制交换码),它是所有IBM大型机和一些小型机的本地字符集。

ASCII(美国信息交换标准代码),这是所有微型计算机和大多数小型计算机的本机字符集。

数据通常结构如下:

文件包含

记录包含

数据元素或字段

平面文件数据本身可以分为以下几类:

定长数据

分隔数据

可变长度数据

固定长度数据 固定长度文件由具有固定长度的记录组成,这些记录将始终占据相同的空间并包含相同数量的字符。在这种类型的文件中,同一个人。

将出现数据元素或字段。字段为空或字符少于字段的最大长度,用空格填充以实现相等的长度。

固定长度数据是下载数据最简单的结构,因为它不需要更改数据以使其能够进行分析或操作。

分隔数据 在这种情况下,虽然所有记录再次具有相同的单个字段,但这些字段的长度可变,此类字段的开头和结尾由逗号、分号、引号等表示。

可变长度数据 有时审计员可能会遇到存储在单个文件中的可变长度记录:

• 包含不同字段的不同类型的记录一起存储在同一个文件中。

• 单一类型的记录,但具有不同的字段,存储在一个文件中。从审计师的角度来看,定义可变长度数据比处理固定长度或分隔数据要困难得多。所采用的方法将取决于所使用的分析软件。

 

数据库

早在计算的早期,数据被分组到类似的记录中并存储在单独的文件中。编写程序是为了直接访问这些文件,每个程序都需要完整描述文件中包含的记录和数据元素以及访问数据的方法。当组织希望更改其数据定义时,这会导致重大问题,因为每个程序都必须单独更改。

通过引入数据独立性克服了这个问题。这是一种允许具有不同逻辑视图的不同用户以不同方式访问相同数据的技术。实现这一点的方法是将数据的性质和位置的定义与使用它的程序分开。在这个阶段,某些定义可能会有所帮助。

 

术语定义

访问方法:用于检索、插入、修改和删除存储设备上的数据的软件逻辑程序。

数据字典/数据目录系统(DD/DS):管理有关数据和数据库环境的信息存储库的软件。

数据独立性和数据共享:一种允许具有不同逻辑视图的不同用户以不同方式访问相同数据的技术。这是通过将数据的性质和位置的定义与使用它的程序分开来实现的。定义、视图、访问规则、位置、逻辑视图和其他描述实际数据的信息位于一个元数据或有关数据的数据文件中。这使具有新逻辑视图的新用户能够被容纳以及改变逻辑视图和改变物理表示。

数据结构:数据的相互关系。

数据库:为满足广大用户的信息需求而进行逻辑组织的数据集合。

数据库管理:涉及数据相关活动的协调和控制的人工职能。

数据库管理系统(DBMS):通过提供组织、访问和控制功能来管理数据的硬件和/或软件系统。

存储结构:用于物理表示存储设备上的数据结构的方法和技术。

这些结构可能存在于传统文件中,也可能以多种方式分组以便通过数据库管理系统 (DBMS) 轻松访问。DBMS 是一种软件或硬件结构,用于控制用户应用系统所需信息的性质和对信息的访问。

 

各个数据库管理系统在数据结构能力方面差异很大。其中的选择将取决于条目访问方法(随机化、索引)和导航访问方法(阅读第一个、阅读下一个、嵌入链接、倒排索引)。

 

数据结构原理

数据结构用于根据信息对业务(功能)进行建模,并遵循一般业务结构:

顺序

分层

网络

关系模型

所有这些数据库类型都有通用组件,尽管每个品牌产品的每个组件都不同:

数据定义语言 (DDL)

存储结构定义语言 (SSDL)

数据操作语言 (DML)

DBMS 核心和实用程序

数据库结构方法

多年来,我们查看数据的形式已经从最初的顺序方法演变为今天的关系方法。审计员在审计过程中仍可能找到所有此类数据库方法的示例。

顺序或平面文件方法 在这种形式中,数据以一个或多个数据文件的形式存储,这些文件只不过是简单的文本文件(ASCII 或 EBCDIC),可以使用文本编辑器直接查看并轻松打印。

基本假设

数据之间存在直接关系。

分层方法

•           基本假设

数据之间存在某种层次关系(如下图)。

术语

根段

父段

子段

双胞胎

 

网络方法

• 基本假设

数据之间存在一些一般关系(如下图)。

术语

记录

指针

笔记

可以定义任何结构。

记录可能包含多个字段。

 

关系模型

• 基本假设

数据之间存在某种数学关系。

术语

• 索引和指针

 

大数据

大数据于 2001 年首次被分类,并已成为描述结构化和非结构化格式数据呈指数增长的流行术语。数据被定义为具有三个主要属性:

交易量,主要从基于交易的信息中以结构化形式导出;随着存储成本的降低,存储的结构化数据的数量现在非常庞大,这在绘制有意义且相关的分析时产生了问题。以非结构化形式,数据可能来自社交媒体,数量甚至更多。

由于需要及时进行分析,数据吞吐量的速度会产生其自身的问题。

数据格式多种多样,从企业应用系统中使用的传统数据库格式的结构化数据到电子邮件、视频、音频和电子商务交易等非结构化格式。

数据格式的绝对复杂性给分析人员带来了跨系统链接和匹配信息以关联关系并执行必要的连接和数据链接以将提取的数据转换为有用信息的问题。通过使用从任何来源提取数据、提取相关数据并对其进行适当分析的能力,组织目前正在寻求确保减少时间和成本并实现更有效的业务决策。

大数据分析通常被审计员用于,例如,

快速识别高风险操作区域

使用点击流分析来收集和分析所访问网页的信息(按顺序),以改进电子商务分析或检测欺诈行为

高速重新计算整个风险组合

在正常运营中,组织使用大数据分析来执行以下操作:

优化工作绩效领域和物流

向移动设备广播定制的公司信息

近乎实时地确定业务缺陷或故障的根本原因

再一次,当企业使用数据分析进行业务决策时,审计师确保数据完整、准确,可以信赖,并且分析过程以同样的完整性进行。后面有机会再详细的介绍。

 

下载过程

由于技术平台的差异,在被审计方的 IT 系统上运行审计员的分析软件通常是不切实际的,如果审计员可以使用被审计方系统上的现有工具,则可能不需要。这种方法的缺点是审计员必须熟悉特定客户 IT 环境中可用的工具,并且将此类工具用于审计目的可能会导致被审计方的实时系统潜在中断,从而对数据完整性和运营绩效产生影响 。

因此,更常见的方法是提取审计师感兴趣的信息数据文件,并将其下载到审计师直接控制的独立机器上。

审计师的大数据分析

与任何其他形式的审计一样,任何数据分析的初始阶段都是计划工作,在此过程中,审计师将决定审计的意图、寻求的证据以及将进行的分析的性质.该信息可以从当前的系统文档中获得,在这些文档中可以获得对 IT 过程的高级理解,包括对可用的单个数据元素的精确理解,以便可以选择适合数据分析的数据元素。一旦确定了所需的证据,就必须找到它。这通常涉及对包含要审问的证据的文件结构的文档的研究。此类文档可能是文书性的,也可能包含在数据库的模式和子模式中。在非数据库文件的情况下,审计员将寻求所有潜在数据文件及其内容和目的的完整列表,以便检查每个选定文件的记录布局,以确定感兴趣的数据字段、类型和格式以及字段长度。

当涉及数据库时,有关结构和所需数据的访问路径的最有用的信息来源可能包含在相关 DBMS 的数据字典中保存的元数据中。由此,审计员可以推导出文件或表的列表以及表级别包含的字段的详细信息和字段的约束以及排序键、访问路径和数据关系。

审计师需要这些信息来确保目标数据被清楚地识别和定位,并且不会通过使用错误的文件布局询问错误的数据甚至正确的数据而得出错误的结论。

然后,审计员将决定要使用的数据传输模式以及数据下载后将如何验证和核对。在那个阶段,可以决定是否需要任何数据转换以及它应该采用什么形式。如前所述,对被审计方的实时系统进行直接询问存在不可再现性的缺点,同时会增加实时处理的开销。一旦计划已经执行到这个阶段,审计员就应该能够寻求下载授权。

 

访问数据

无论数据是从实时系统、报告还是通过下载获得,审计师都需要适当的权限来获取此类信息并以适当的方式对其进行分析。这可能来自用户管理、执行管理或 IT 管理,具体取决于信息的性质和要执行的分析。此类权限应始终以只读方式授予。除非有特殊情况,否则审计员不应有能力有意或无意地破坏或更改实时数据。当这种情况存在时,审计员必须确保适当的授权被记录在案并安全保留。

 

下载数据

可以直接从实时文件中查询数据,但存在的缺点是,即使查询发生,数据内容也会继续移动,因此结果将无法重现。因此,大多数审计数据分析都是在实时数据的副本上进行的,这些副本可以离线存储,并且可以根据需要重复分析。提取过程可以采用多种形式,使用系统中可用的标准程序(实用程序)或使用专门为下载目的获得的软件。

要从被审计方系统下载数据,有多种选择:

• 磁性媒体,包括磁带和 CD

• 从远程位置向审计员发送数据时收到的电子邮件附件

• 通过网络连接直接复制文件,可能是内部网络或公共网络

• 使用 Microsoft 的 ODBC 或OLE DB 通过数据库连接导入

ODBC(开放数据库连接)接口是一种 Microsoft C 编程语言接口,它使应用程序可以访问来自各种数据库管理系统(DBMS) 的数据。ODBC 接口允许最大的互操作性,以便审计软件或任何其他应用程序可以通过单个接口访问不同 DBMS 中的数据。此外,该软件将独立于它访问数据的任何专有 DBMS。审计员可以添加称为驱动程序的组件,这些组件是应用程序和特定 DBMS 之间的接口。ODBC 的一个缺点是它只提供对关系数据库的访问。OLE DB(对象链接和嵌入数据库)提供对数据的访问,无论其格式和位置如何,以及对 ODBC 数据源和驱动程序的完全访问。

在将信息下载到审计员域的所有情况下,审计员确保以下内容至关重要:

• 准确性——下载的数据忠实地反映了审计师感兴趣的实际数据。

• 有效性——下载的数据从技术角度来看是有效的;也就是说,没有包含垃圾或无意义的字符。

• 完整性——所有需要的数据都已下载,相反,没有包含任何虚假数据。

数据验证

存在多种审计技术,因此审计员可以在分析之前依赖下载的数据。也许其中最常见的是直接计数记录以确保已收到所有数据。可以通过重新计算总数并将它们与原始来源进行比较来检查下载信息的准确性。这些总数可能是真实的数字,例如有价值的信息,也可能是散列总数,例如电话号码的总数。在开发散列总数时,审计员应该注意数字本身没有意义,计算只是为了比较目的,以确保下载的完整性和准确性。

下载数据后,可能会进行额外检查以确保内部一致性,尤其是当数据来自多个源、文件或表时。显然,如果要下载的原始数据不一致,同样的不一致也应适用,这本身可能是一个重要的审计发现。

 

从打印输出中获取数据

当原始数据仅以印刷形式提供时,仍有可能将其转换为数字格式或要求重复打印输出但打印到文件而不是纸张。

当打印输出减少为数字形式时,审计员会发现数据结构可能需要多个行定义才能访问相关信息。实现这一点的机制将取决于用于数据分析的软件,有机会再详细的介绍。

 

数据清理

一旦数据以审计员可读的格式交付,一致性检查可能会发现虚假数据以及对分析更有用的格式的数据。然后,审计师可能会决定清理数据并将不太有用的格式转换为易于分析的数据。这可能包括以下内容:

删除不需要的数据字段。数据字段通常会保留在下载的文件中,但只会从审计员的活动视图中删除。这很重要,因为如果审计在中途变成司法调查,那么审计师能够在法院要求时以未更改的形式提供原始信息至关重要。

数据从一种格式到另一种格式的转换。通过下载获得的数据将与系统中当前保存的数据相同。这可能意味着,例如,数字数据保存在定义为字母数字的字段中。实际上,这阻止了审计员对这些数据进行算术运算,除非它被转换成数字格式。再一次,审计师将寻求仅在审计师使用的数据中转换数据,而不是在原始版本中进行更改。

当要连接多个文件且通用密钥格式不同时,可能需要替换数据。

在所有这些情况下,审人员必须确保所有消毒活动都清楚地记录在工作底稿中,以解释做了什么、为什么做、谁做的以及对分析的影响是什么。同样,目的是所做的任何分析都可以由另一位分析员独立复制,因此,必须清楚地理解对数据的修改,并且第二位审计员同意其有效性。

不幸的是,这种数据分析中常见的一个错误是在分析之前使用编辑软件对下载的数据进行直接更改。由于这些变动,审计员可能无法证实分析是以数据为基础的,因为最初提交的数据只作了具体和记录在案的修改。如果要进行这种事先编辑,至关重要的是,审计员应使用原始下载数据的一份副本,注意所作的修改,并以安全的方式保留原始下载版本,以便在以后需要时可供独立审查。

记录下载

与任何审计一样,审计员必须在其工作底稿中保留仔细和全面的文件,以提供所有已开展活动的审计线索、这些活动的原因以及需要时的适当授权。此类文档通常包括以下内容:

数据所有者同意下载过程

下载数据的来源

下载日期和时间

下载数据的存储位置

要执行的分析的性质及其原因

执行的任何转换、消毒或清理程序

数据下载过程的计算机日志文件

也许下载用于分析的数据的最关键部分可以总结如下:

决定将分析哪些信息

获取该信息

获取信息

• 确保下载的信息准确、完整并充分反映实时系统

之后,正常的审计控制必须保持到位,以确保审计测试适当、正确执行、正确解释和有效沟通。审计员还应注意,公司机密信息现在是他/她在保密方面的直接责任。

0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论