讲几个常用的统计指标,都是信息检索(IR)和机器学习/文本挖掘中常见的概念,主要包括:TF/IDF召回率准确率F值举例其它各种率比例性质

TF/IDF

  • TF: 词在一个文档出现的次数 / 文档中的所有词
  • IDF: log(所有文档的数量/出现了某个词的文档数量)

召回率、准确率、F值

  • 召回率 = 查询出来的正确数量 / 正确数量的总集
  • 准确率 = 查询出来的正确数量 / 查询出来的总集
  • F值 = ( 召回率 * 准确率 * 2 ) / ( 召回率 + 准确率 )

    召回率很高的时候,往往准确率会低。所以,一味的抢到召回率或者准确率都不行,因此,定一个了F值,是对召回率准确率的一个平衡.

举例

水塘中有1000条鱼, 500只虾, 300只螺. 1. 捕鱼500条, 300虾, 200螺只那么: - 召回率 = 500 / 1000 = 50% - 准确率 = 500 / ( 500 + 300 + 200) = 50% - F值 = 50% * 50% * 2 / (50% + 50%) = 50%

  1. 捕鱼1000条, 500虾, 300螺
  2. 召回率 = 1000 / 1000 = 100%
  3. 准确率 = 1000 / ( 1000 + 500 + 300) = 56%
  4. F值 = 100% * 56% * 2 (100% + 56%) = 72.8%

其它各种率

统一算法:各种率 = |(新值 - 旧值) - 1| - 利润率 = 利润 / 进价 = (售价 - 进价) / 进价 = (售价 / 进价) - 1 - 变化率 = 变化量 / 变前量 * 100% - 增长率 = (现在 - 原来) / 原来 = (现在 / 原来) - 1 - 下降率 = (原来 - 现在) / 原来 = 1 - (原来 / 现在)

比例性质

  • a / b = c / d <--> ad = bc