本福特定律和统计中的造假检测
AI入门学习
共 3644字,需浏览 8分钟
· 2022-02-17
英文原文:https://www.statisticalconsultants.co.nz/blog/benfords-law-and-accounting-fraud-detection.html
一、基本概念
15435 首位是 1
56 首位是 5
9001 首位是 9
199 首位是 1
9 首位是 9
二、数位分布概率 第1位数字
出现概率
1
0.301
2
0.176
3
0.125
4
0.097
5
0.079
6
0.067
7
0.058
8
0.051
9
0.046
第1位数字 | 出现概率 |
1 | 0.301 |
2 | 0.176 |
3 | 0.125 |
4 | 0.097 |
5 | 0.079 |
6 | 0.067 |
7 | 0.058 |
8 | 0.051 |
9 | 0.046 |
三、本福特分布图
四、本福特分布公式
六、本福特定律适用于哪类数据?
具有通过来自多个分布的数字的数学组合形成的值的数据。 具有多种数字的数据,例如 具有数百,数千,数万等数值的数据。 数据集相当大。 数据是右倾斜的,即平均值大于中值,并且分布具有长的右尾而不是对称的。 数据没有预定义的最大值或最小值(最小值为零)。
七、会计欺诈检测与取证分析
1)大型企业的应付账款数据
2)本福特的分析应用于组织的费用数据
八、广义本福特的分布表
数位 | 第1位 | 第2位 | 第3位 | 第4位 | 第5位 |
0 | NA | 0.11968 | 0.10178 | 0.10018 | 0.10002 |
1 | 0.30103 | 0.11389 | 0.10138 | 0.10014 | 0.10001 |
2 | 0.17609 | 0.10882 | 0.10097 | 0.1001 | 0.10001 |
3 | 0.12494 | 0.10433 | 0.10057 | 0.10006 | 0.10001 |
4 | 0.09691 | 0.10031 | 0.10018 | 0.10002 | 0.1 |
5 | 0.07918 | 0.09668 | 0.09979 | 0.09998 | 0.1 |
6 | 0.06695 | 0.09337 | 0.0994 | 0.09994 | 0.09999 |
7 | 0.05799 | 0.09035 | 0.09902 | 0.0999 | 0.09999 |
8 | 0.05115 | 0.08757 | 0.09864 | 0.09986 | 0.09999 |
9 | 0.04576 | 0.085 | 0.09827 | 0.09982 | 0.09998 |
九、一般分布公式
十、上市公司年报净利润数据验证本福特定律
# 验证本福特定律
import tushare as ts # 股票数据获取的一个包
import math
import matplotlib.pyplot as plt
import pandas as pd
from functools import reduce
from pylab import *
# 这一句让pyplot支持中文显示
mpl.rcParams['font.sans-serif'] = ['SimHei']
# 获取首位的函数
def firstDigital(x):
x= round(x)
while x >= 10:
x //= 10
return x
# 首位概率累加
def addDigit(lst, digit):
lst[digit-1]+=1
return lst
# 理论值:每位概率理论值用于对比
th_freq=[math.log((x+1)/x, 10) for x in range(1,10)]
#分别获得2019,2020年报数据
df= ts.get_report_data(2019, 4)
# 只取净利润>0的数据,首先进行次数统计
freq= reduce(addDigit, map(firstDigital, filter(lambda x:x>0, df['net_profits'])), [0]*9)
# 再计算实际概率
pr_freq= [x/sum(freq) for x in freq]
print(th_freq)
print(pr_freq)
# 作图
plt.title('用上市公司2019年报净利润数据验证本福特定律')
plt.xlabel("首位数字")
plt.ylabel("概率")
plt.xticks(range(9), range(1,10))
plt.plot(pr_freq,"r-",linewidth=2, label= '实际值')
plt.plot(pr_freq, "go", markersize=5)
plt.plot(th_freq,"b-",linewidth=1, label= '理论值')
plt.grid(True)
plt.legend()
plt.show()
长按关注公众号 长按加作者好友
评论
真高!比亚迪员工爆料比亚迪在越南的薪资水平:基本工资480万,全勤奖35万,交通补助20万,餐补110万,每周6天,每天10小时
上一篇:某大公司为逼迫员工离职,竟然把他的工位安排到厕所旁,没想到他直接开始记录领导的如厕时间,还发到公司大群...对此,你怎么看?--完--PS:欢迎在留言区留下你的观点,一起讨论提高。如果今天的文章让你有新的启发,欢迎转发分享给更多人。全文完,感谢你的耐心阅读。如果你还想看到我的文章,请一定给本
开发者全社区
0
太敢穿了!透视纱裙!性感火辣的身材
绝了呀今天的厂花:吴宣仪1995年1月26日,吴宣仪出生于海南省海口市,中国内地流行乐女歌手、影视演员。2016年2月,吴宣仪随宇宙少女发行首张迷你专辑正式出道。2018年4月,她参加《创造101》综艺选秀,获得第二名,成功加入火箭少女101组合。吴宣仪的颜值一直备受称赞,她的五官立体精致,皮肤白皙
逆锋起笔
0
某大公司为逼迫员工离职,竟然把他的工位安排到厕所旁,没想到他直接开始记录领导的如厕时间,还发到公司大群...
上一篇:字节的跳动职级与薪资(2024年)我们与公司间的合作,宛如两艘船只在茫茫大海上相互依靠,共同抵御风浪,携手驶向成功的彼岸。然而,当航向开始产生分歧,或是波涛汹涌的风浪改变了我们的初衷,我们或许应当冷静地选择和平分手,而非在风雨中硬撑。最近,一位网友的遭遇引起了广大职场人的关注和热议。这位网友
开发者全社区
0
金融研究 | 使用Python测量关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
我看阿里的年终奖总算发了!
到4月底了,这两天看朋友圈,发现阿里的年终奖终于发了,问了问老同学,也从网上检索了不少信息,基本搞清楚了阿里今年的年终奖情况。近来来阿里一些集团对绩效等级做了较大的调整,以前的旧绩效系统中,绩效分为3.25、3.5、3.75、4和5五个等级,其中4和5是较高绩效等级,较少见。而且之前3.5绩效内部划
公子龙
0
CVPR 2024|大视觉模型的开山之作!无需任何语言数据即可打造大视觉模型
↑ 点击蓝字 关注极市平台作者丨科技猛兽编辑丨极市平台极市导读 本文提出一种序列建模 (sequential modeling) 的方法,不使用任何语言数据,训练大视觉模型。>>加入极市CV技术交流群,走在计算机视觉的最前沿本文目录1 序列建模打造大视觉模型(来自 U
极市平台
1
金融研究(更新) | 使用Python构建关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
字节的跳动职级与薪资(2024年)
上一篇:阿里公布年终奖,P7, 3.5+,22W年终奖,还有35W长期现金激励,真香字节跳动自2012年3月成立以来,已经迅速成长为一个全球性的科技公司。其产品和服务已经遍布全球150多个国家与地区,并且支持超过75种不同的语言。在字节跳动的官方网站上,列出了一系列引人注目的产品和服务,包括但不限于
开发者全社区
0