Written by
彭一
on
on
几个常用统计指标
讲几个常用的统计指标,都是信息检索(IR)和机器学习/文本挖掘中常见的概念,主要包括:TF/IDF,召回率,准确率,F值,举例,其它各种率,比例性质。
TF/IDF¶
- TF: 词在一个文档出现的次数 / 文档中的所有词
- IDF: log(所有文档的数量/出现了某个词的文档数量)
召回率、准确率、F值¶
- 召回率 = 查询出来的正确数量 / 正确数量的总集
- 准确率 = 查询出来的正确数量 / 查询出来的总集
- F值 = ( 召回率 * 准确率 * 2 ) / ( 召回率 + 准确率 )
召回率很高的时候,往往准确率会低。所以,一味的抢到召回率或者准确率都不行,因此,定一个了F值,是对召回率和准确率的一个平衡.
举例¶
水塘中有1000条鱼, 500只虾, 300只螺. 1. 捕鱼500条, 300虾, 200螺只那么: - 召回率 = 500 / 1000 = 50% - 准确率 = 500 / ( 500 + 300 + 200) = 50% - F值 = 50% * 50% * 2 / (50% + 50%) = 50%
- 捕鱼1000条, 500虾, 300螺
- 召回率 = 1000 / 1000 = 100%
- 准确率 = 1000 / ( 1000 + 500 + 300) = 56%
- F值 = 100% * 56% * 2 (100% + 56%) = 72.8%
其它各种率¶
统一算法:各种率 = |(新值 - 旧值) - 1| - 利润率 = 利润 / 进价 = (售价 - 进价) / 进价 = (售价 / 进价) - 1 - 变化率 = 变化量 / 变前量 * 100% - 增长率 = (现在 - 原来) / 原来 = (现在 / 原来) - 1 - 下降率 = (原来 - 现在) / 原来 = 1 - (原来 / 现在)
比例性质¶
- a / b = c / d <--> ad = bc