孤立点分析在税务审计上的发展运用

时间:2022-07-02 18:53:26 税务 我要投稿
  • 相关推荐

关于孤立点分析在税务审计上的发展运用

  孤立点分析在税务审计上的发展运用

  引言

  审计作为一种独立性的经济监督活动,对被审计单位相关经济活动具有特有的制约和促进作用。审计的职能就是通过对数据的检查,监察财务收支的真实、合法性,总结效益情况,同时发现和揭示重大问题或风险隐患。近年来,随着经济建设的不断发展,税务审计的任务也越来越重,在日积月累的数据量的不断增加下,使用原有的审计也难以满足实际要求。随着审计技术运用的不断深入,内部审计人员感觉可发现的审计线索少了,问题越来越隐蔽。而以往的分析技术倾向于发现个案的存在,但对审计对象的整体风险情况无法进行全面的把握。对审计部门困扰的主要有以下问题,一是由于各单位业务逐步出现了高度电子化,数据海量化,关注广泛化,产品衍生化,环境多样化的情况,让审计效率明显降低。二是审计在其执行过程中,所用的工具和程序都是基于事先的审计假设,而审计假设则是由审计人员通过以往的正常情况或者发展趋势进行人工分析得出判断和说明,但是由于个人的经验和知识是有限的,随着时间的发展,业务流程的更新,产品和技术的产生,造成了模型相对滞后,对面新的情况和海量的数据着手困难[1]。针对这些问题,人们逐步开始利用数据挖掘技术来进行解决。本文主要描述基于数据挖掘的孤立点分析在税务审计方向上的发展与运用。

  1 数据挖掘技术数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它可以进行历史数据的查询和遍历,发现数据仓库中对象演变特征或对 象发展趋势,也能找出过去数据潜在的关系,从而进行信息的挖掘,还可以根据过去的数据对未来进行预测和分类。数据挖掘与传统的数据分析的本质区别就是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘现阶段在税务审计中主要应用了聚类技术、分类与预测技术、关联技术、孤立点发现技术等等[2]。

  2 孤立点的定义与产生

  2.1 孤立点的定义孤立点分析是数据挖掘中的一个重要研究方向。利用数据挖掘技术可以在海量的数据处理过程中获得一般模型,但这些数据并不是全部适用于这个一般模型,比如一些特殊值。这些不符合一般数据模型的数据从数据处理的目的来说可能就是数据整体的孤立数据、异常数据、偏差数据或者噪声数据。它们也有它们的共同特性,就是与海量数据中的其他数据有着明显的不一致,这些数据,我们统称为孤立点。一般的孤立点分析在数据挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的;二是找到一个有效的方法来挖掘这样的孤立点[3]。

  2.2 孤立点的产生孤立点的产生原因是多方面的,简单来说,可以归纳为以下几个方面: 二是人为欺诈行为所致。为了某种目的而直接对数据进行违背事实的更改或者添加,造成数据值与实际情况有很大区别。个别单位虚报的统计数据就属于此类。三是由于仪器或者设备出错导致。在数据采集过程中测量仪器或者设备难免不会受到外界的影响而使得采集到的数据出现错误。四是数据系统的变化或者故障。数据系统在运行或者搬迁的时候,可能因为个别不可预料的操作对其中的数据造成影响。比如数据库的搬迁,恢复时出现小范围报错的情况。五是数据发生自然偏差导致。事物是不断发展和变化的,在这个过程中是符合自然规律的,而这些变化和发展也会对其中的数据产生影响。比如同一个公司里职员升职为经理后工资就会高出不少,但这些变化却是合理的存在从上面的原因来看,孤立点不论是怎么产生的,都并不是毫无意义的异常数据。这些孤立点数据对总结海量数据得出一般模型不会产生积极作用,但从这些估计点进行分析却能够获取到有价值的信息。作为税务审计人员,就应该特别重视孤立点数据,从中深究出审计线索。

  3 孤立点在税务审计上的运用因为税务审计业务的性质,决定了在税务审计中运用数据挖掘技术来对海量数据的孤立点进行分析能够取得比较好的审计线索,从而达到审计的目的。在税务审计工作中,通过基于数据挖掘的孤立点分析来查找审计线索特征主要分为以下三个步骤。

  3.1 寻找孤立点的数据准备数据的准备可以分为三个主要步骤:一是数据选取,二是数据预处理,三是数据变换。数据选出主要是为了确定目标任务的操作对象,它是根据用户的需要从原始数据库抽取出来的一部分表和字段。所以在数据选取之前先要对具体的审计事项进行分析,综合数据字典和数据说明文档对数据的含义和业务流程等方面的情况进行分析,对数据的产生有个全面的了解。数据预处理是一个相当耗费时间的过程,它包括数据噪声的消除、缺值数据的推导与计算、重复记录的处理、数据类型的转换等等。比如在处理空值和噪声时一般可以采取如下几个方法:一是均值法,即用数据库中该属性已知的属性填充,具体为当前点k(k可自定义)个不为空的数据点的平均值来替换。二是平滑法,假设当前数据点是噪声数据或者空值,则取出当前点a个(a可自定义)不为空的数据点的加权平均值来替换。三是预测法,采取回归、拟合、插值、归纳等方法,推断空值或噪声数据属性最可能的取值。四是统计频率法,此法既适用离散数据,也可用于经过离散化的连续数据的数据缺损处理,假如数据库中的属性存在有噪声数据或者空值,属性a的值域为{,,……,},P()表示值在该系统中出现的频率。可以用最大出现频率的值max{P()}进行填充[4]。数据变换的主要目的则是数据维数消减,主要可分为两种:一种是从有关变量中消除无关、弱相关或冗余的维,寻找一个变量子集来构建模型,即子集选择策略;另一种就是把p个原始变量变换为p′个变量,即数据变换策略。

  3.2 可疑孤立点的检测一般来说,孤立点的发现可以分为以下几种:一是基于统计的孤立点检测方法。这种方法是将全部的数据集合假设成一个概率模型,根据模型再采用不一致性检测来寻找和确立孤立点。基于统计的孤立点检测挖掘方法比较简单,实现起来也相对容易,但它的缺点也比较明显,就是大部分的检测仅对数据分布满足一定概率分布的数值型单维数据集较为有效,然而许多采用数据挖掘技术就是要求在多维空间中发现孤立点的。同时,统计学的方法要求关于数据集合参数的知识,但是,这参数有可能是未知的。当没有特定的检验时,该类方法不能确保所有的孤立点被发现。二是基于距离的孤立点检测方法。为了能够解决基于统计的孤立点检测方法的实用性局限,拓宽在多维数据上的应用,Knorr和NG引入了基于距离的孤立点的概念,他们认为如果某个点与数据集中大多数点之间的距离都超过了某个阀值,这个点就是孤立点[5]。但他们的这种方法也有着不足:阀门需要用户自己合理设置,使得产生了比较大的人工介入和干预。我们比较用到的基于距离的孤立点算法有:Cell-based算法、Index-based算法和Nested-loop算法。三是基于密度的孤立点检测方法。它是在基于距离的方法基础上建立起来的,根据数据点之间的距离参数以及某一给定范围内的数据点的个数参数结合在一起就是密度的概念。基于密度的孤立点检测能够很好的检测出基于距离所不能够识别的局部孤立点,也不容易遗漏掉周围的孤立点数据。四是基于聚类的孤立点检测方法。这种方法主要是指在数据挖掘的聚类过程中,在产生有意义的聚类信息的同时产生的多余孤立点数据。在聚类过程中,算法会将数据集中异常的信息作为噪音而忽略掉,虽然不利于异常信息的检测,但它扫描数据集效率非常高,适用于现在的海量数据。五是基于偏离的孤立点检测方法。基于偏离的孤立点检测时通过对检测数据集的主要特征来确定孤立点的,与指定的主要特征描述不一致的所有数据集都会被认为是孤立点。比较常见的基于偏离的孤立点检测技术是序列异常技术和OLAP数据立方体技术[6]。

  3.3 可疑孤立点的判断接下来就需要对找出的孤立点进行人工分析,看是否为疑点数据。发现的孤立点虽然都符合挖掘的条件,但不一定对税务审计工作有利用价格。比如,有些孤立点虽然是异常的,但却是合理数据,有些孤立点虽然是异常的,但影响却非常小,达不到需要关注的水平。这些都需要审计人员根据业务的目的进行具体问题具体分析,从而从中选出适合的孤立点数据。再对初步选择出来的疑点数据进行审计专业判断,通过专业的办法最终确定审计线索。常见的方法主要有:一是审阅法,它主要是指对各种书面、电子资料的检查。通过审阅法,可以对孤立点有关的其它资料(包括经济信息材料等等)进行审阅,来确认该孤立点是否属于问题数据。二是复算法,复算法主要指通过对有关数据的重新整理和计算,以验证其结论是否可靠的一种方法。根据实际情况,通过对检测出的可疑孤立点进行再次计算,多次重复来确认该孤立点是不是问题数据。三是存盘法,存盘法指的是通过对财产物质的清点、计算,验证可疑孤立点的数据的真实性。四是函证法,因为被审计单位的业务不可能是孤立的存在,肯定会跟其它的单位有着各种各样的联系,所以,可以发送函件给其它单位,来验证数据是否合理,确定孤立点是否为问题数据。

  4 结论总之,运用一定的数据挖掘算法对被审计的海量数据采取聚类或其它的检测方法,找出数据的一般规律,筛选出孤立点,并以图、表等方式展现给审计人员,审计人员就能根据专业知识和方法判断其正确性与合理性,经过多次的挖掘、分析、判断,最终建立确定适合的审计线索。基于数据挖掘技术的孤立点分析可以大大缩小搜索审计线索的范围,帮助审计人员及时发现违纪线索,增强审计人员的数据分析能力,大幅度提高审计工作的质量和效率,对行业依赖度较低并具有一定的通用性。因此,包括孤立点分析在内的数据挖掘技术在审计领域必将能得到更多的运用和发展。

【孤立点分析在税务审计上的发展运用】相关文章:

《积累运用》教材分析07-03

JDPaint雕塑的运用分析论文07-03

性格分析在培训技术中的运用07-13

税务案头审计报告范文07-02

传统雕塑形体中线的运用分析论文07-03

国内体育运动在数据分析领域上发展如何?07-10

测评在诺基亚员工发展中的有效运用07-12

《函数性质的运用》数学教学案例分析07-03

白领如何避免被孤立07-12

Web分析与CMS集成网站分析发展趋势07-14