预测建模是指使用数据建模技术来预测未来结果的一种方法。它是企业用以洞悉未来,然后相应地制定针对性计划的有效方式之一。这种方法操作起来不算简便,但准确率高,因此成为企业的常用方法。
什么是预测建模?
简单来说,预测建模是一种统计技术,即运用机器学习和数据挖掘技术,结合历史数据和当前数据来预测未来结果。其工作原理为:分析当前数据和历史数据,然后将分析结果“投射”到一个模型中,预测未来可能出现的结果。预测建模可用于预测任意事务,从 TV 收视率、客户下一次购买、信用风险到企业收入等。
预测模型并非一成不变,用户会定期根据底层数据的变化进行验证或修订。换句话说,预测不是一次性任务。预测模型将以历史数据和当前数据为基础“提出”假设,然后在新数据显示发生了变化时重新计算这种“变化”可能对未来结果产生的影响。例如,某软件公司可以针对多个地区的营销支出对历史销售数据建模,基于营销支出的影响创建一个未来收入模型。
大多数预测模型的运行速度很快,往往能实时完成计算。例如,银行和零售商可以快速计算在线抵押或信用卡申请的风险,然后基于预测结果近乎实时地接受或拒绝申请。
有些预测模型(例如在计算生物学(opens in new tab)和量子计算(opens in new tab)领域)则较为复杂,相比信用卡申请风险预测模型,它们通常要花更长时间才能完成计算,但得益于技术(包括计算能力)的进步,其速度相比过去已大大提升。
主要的 5 类预测模型
所幸,我们不需要为每一种应用场景从零创建预测模型。很多预测性分析工具提供了各种适用于广泛用途且经过审核的模型和算法。
预测建模技术一直在不断完善。随着数据量的增长、计算能力的增强、AI 和机器学习功能的发展以及分析技术的整体进步,企业可以使用预测模型创造更多价值。
以下是 5 种主要的预测性分析模型:
- 分类模型: 这是最简单的一种预测模型,旨在通过对数据分类来响应简单的直接查询。其典型用例是回答“这是一个诈骗交易吗?”这一类问题。
- 聚类模型: 该模型将按照常见属性进行数据聚合。它能够按照共同特性或共同行为对物或人分组,在更大的规模上按组制定策略。举例来说,在处理贷款申请时,基于过往相同或类似情况下其他申请人的行为来确定申请人的信用风险。
- 预测模型: 该模型非常受欢迎,它能够基于历史数据学习结果提供预测数值,适用于几乎所有场景。例如,回答“餐馆下周应订购多少莴笋?”或者“一名客服座席每天/每周能处理多少呼叫?”等问题。
- 异常值模型: 该模型旨在分析异常数据点。例如,银行可能使用异常值模型来识别欺诈行为 — 判断某笔交易是否违背客户购买习惯,或者某一类别下的某笔支出是否属于正常支出。举例来说,在持卡人的首选大卖场中通过信用卡消费 1000 美元购买洗衣机和烘干机时,不会触发报警;而在客户从未有过购买行为的地点花 1000 美元购买高级服装时,则表明账户可能被盗。
- 时间序列模型: 该模型旨在评估一组连续的基于时间的数据点。例如,根据过往 4 个月内入院的中风患者数量,预测未来一周、一个月或该年度剩余时间内可能会有多少患者入院。相比平均值,基于时间衡量和对比的指标更有意义。
常见预测算法
预测算法通常使用机器学习或者深度学习技术。这两种技术都属于人工智能 (AI) 范畴。机器学习 (ML) 技术主要处理结构化数据,如电子表格数据或机器数据。深度学习 (DL) 则处理非结构化数据,如视频、音频、文本、社交媒体文章和图像 — 基本上涵盖了我们人类与之交互的所有非数字或非指标数据。
常见的预测算法有:
- 随机森林: 该算法是从组合在一起的多棵互不关联的决策树衍生而来,可使用分类和回归技术对海量数据进行分类。
- 适用于两个值的广义线性模型 (GLM): 该算法通过缩小变量范围来查找“最佳匹配”结果。它可以推断出临界点(opens in new tab)、变更数据捕获(opens in new tab)以及其它影响因子(如分类预测指标(opens in new tab)),进而确定“最佳匹配”结果,从而消除一般线性回归等其它模型的弊端。
- 梯度提升模型: 该算法同样使用多棵组合的决策树,但与随机森林不同,这些决策树是有关联的。它一次只构建一棵决策树,能够在构建下一棵决策树时修正前一棵决策树的缺陷。该算法通常用于排名使用场景,如搜索引擎结果排名。
- K 均值 (K-Means): K 均值算法是一种广受欢迎的算法,其运行速度快,能够按照相似度进行数据分组,常被用于聚类模型。它可以快速向一个庞大群体(例如:喜欢带衬里的红色羊毛外套的客户,数量高达 100 万或更多)中的个体提供个性化零售方案。
- Prophet: 该算法可在时序或预测模型中用于能力规划场景,如库存需求、销售配额和资源分配等。它非常灵活,可以轻松满足启发式算法(opens in new tab)和一组有效假设的需求。
预测建模和数据分析
预测建模又被称为预测性分析。一般来说,学术界倾向于使用“预测建模”这一术语,而商业应用更青睐“预测性分析”。
要想成功开展预测性分析,畅通无阻地访问充足、准确、干净、高度相关的数据至关重要。尽管预测模型可能极其复杂,例如使用决策树的模型和 K-均值聚类模型,但是最复杂的部分始终是神经网络(opens in new tab),也就是说,模型要凭借神经网络来训练计算机,才能预测结果。机器学习技术正是利用神经网络来查找超大规模数据集中的关联,进而“学习”和识别数据模式的。
预测建模的优势
简单地说,在预测业务结果方面,预测性分析可以节省时间和成本,减轻工作负担。环境因素、竞争情报、监管变化和市场状况等变量都可以纳入数学计算,以相对低的成本提供更全面的视图。
一些特定类型的预测可为企业带来诸多益处,这些预测包括需求预测、人员规划、客户流失分析、外部因素分析、竞争分析、车队和 IT 硬件维护规划以及财务风险分析等。
预测建模的挑战
不是所有的预测建模结果都有价值,因此企业应专注于通过预测性分析获得具有现实意义的业务洞察。预测建模提供的某些信息只能满足好奇心,对业务的影响力极其有限,甚至是毫无影响。如果在预测建模上“误入歧途”,付出的代价将是企业无法承受的。
此外,在预测建模中,并不是使用的数据越多,其结果就越好,凡事皆有度。太多数据反而会影响计算的准确性,导致输出无意义的结果甚至是错误结果。例如,外套销量会随着气温下降而增加。但销量不会一直增加,与零下 5 度相比,零下 20 度时人们并不会购买更多外套。在一定程度上,寒冷会促使人们购买外套,但当温度继续下降时,这一模式却不会再发生明显变化。
最后,预测建模会使用庞大规模的数据,企业还将面临安全性和隐私保护方面的挑战。机器学习技术的局限性也会带来很多挑战。
预测建模的局限性
麦肯锡分析报告(opens in new tab)指出,预测建模常见的局限性及其“理想解决方案”包括:
- 数据标记错误: 此类问题可以通过强化学习或者生成式对抗网络 (GAN)(opens in new tab) 来解决。
- 训练机器学习模型所需的数据不足: 此类问题可通过“单样本学习(opens in new tab)”予以解决,即机器只学习少量样本,而不是一个庞大的数据集。
- 机器无法解释做了什么以及为什么这样做: 机器在思考和学习上与人类不同。同样,机器的计算可能极其复杂,人类可能无法理解(更不必说遵循)机器逻辑。这导致机器和人都难以解释机器所做的工作。因此,出于多种原因,尤其是出于人类安全考虑,模型透明度至关重要。对此,一个颇具前景的解决方法是使用局部可解释的模型无关解释 (LIME(opens in new tab)) 和注意力机制(opens in new tab)。
- 机器学习结果存在普适性问题,或者说普适性不足问题: 与人类不同,机器难以“传承”自己的学习成果。换句话说,它们无法将学习成果应用到另一组新条件下。无论机器取得了何等学习成果,学习成果都只适用于所属场景。这也是我们不必担心 AI 很快会统治世界的原因。要想在更多场景下重用基于机器学习技术的预测建模,一个可行方法是迁移学习(opens in new tab)。
- 数据和算法偏见: 非再现 (non-representation) 会影响结果的准确性,导致对大型群体处理不当。更严重的是,固有偏见难以发现,即使发现了,也难以消除。换言之,偏见倾向于自我延续。如今,这一问题仍未定性,尚无明确的解决方案。
提高规划和
预测的准确性
预测建模的未来趋势
如今,预测建模(也称为“预测性分析”)和机器学习技术仍然十分“年轻”,它们在未来的发展空间十分广阔。未来,随着各种技术、方法和工具持续发展,它们将给企业和社会带来更多好处。
不过,如果没有及早采用预测建模,等到技术成熟和所有问题得到解决后再采用,企业可能会付出无法承受的代价。预测建模的短期优势极其显著,如果在采用上落后一步,企业将步步落后,更不必说与同行同台竞技了。
因此,我们的建议是:立即了解并部署预测建模,然后随着后续技术发展,逐步从中获得更多业务优势。
在平台上使用预测建模
对于所有大型企业以外的组织来说,要想获得预测性分析带来的业务优势,最简单的方法是使用内置了预测性分析技术且提供了预训练机器学习模型的 ERP 系统。举例来说,这些系统的计划、预测和预算特性可能提供统计模型引擎,支持企业快速对多个场景建模,响应不断变化的市场形势。
另外,ERP 系统的供应计划/供应能力功能可以预测可能的交付延迟、采购单、销售订单以及其它风险或影响。仪表盘上还可以提供候补供应商信息,帮助企业满足制造或配送需求。
财务建模、财务规划和预算职能尤其适合使用这些先进技术,将在降低团队成员工作负担的同时获得诸多优势。