了解机器学习的发展趋势以及商业应用

小施 2020-11-25 11884

机器学习是整个人工智慧领域中为商业产出最大价值的技术，其中监督式学习尤其重要。虽然机器学习的概念早在半个世纪前就存在了，然而只有在海量数据每分每秒产生、以及飞快的运算速度的现代，机器学习才有办法在各个产业中被广泛的应用。

什么是机器学习

机器学习，一种人工智慧的技术，不同于传统程序，是通过处理并学习庞大的数据后，利用归纳推理的方式来解决问题，所以当新的数据出现，机器学习模型即能更新自己对于这个世界的理解，并改变他对于原本问题的认知。假设现在有一个人对于美丑没有概念，那么你把他带到一群人面前，并指着其中一个说是美、一个是丑、另一个是美等等…随着这位本无审美观的人看到更多资讯后，他也会开始对审美这个观念有一定的想法。而关键在于，数据的量一定要足够大且数据的质一定要好，才能让机器学习模型更好的判断问题的答案。

然而，在真实世界中，我们往往无法取得如此完整且干净的数据，而这就是其它技术能够派上用场的地方了。相反于监督式学习，非监督式学习所使用的数据是没有被标记的，例如一群猫咪的照片但却没有被标记种类或是健康程度等，或是一堆交易纪录，但却没有标记正常或是异常。半监督式则是两者的重迭，利用小组的已标记数据参进未标记数据中以提升准确性以及效能。强化学习则是利用奖励机制来让演算法达到最好的表现。

监督式学习与非监督式学习的差异为何?

监督式与非监督式学习根本的差异在于数据本身是否有标签 (Labeled)，也就是说资料本身是否有被定义。

监督式学习（Supervised Learning）

监督式学习利用已被标记的数据来训练模型，想像成老师在一旁指导着学生，告诉他每一个问题的答案，随着学生问题越做越多，他对于这类型问题的理解也会越来越深，正确性也会变高。完整标记的数据组代表着机器学习模型所收到的数据是有输入（input）与输出（output）的。所以，假设要建立一个图像识别模型来分辨0~9这十个数字，那么模型就会收到一堆数字的图片（input）以及这些图片分别为什么数字（output），在模型处理完（学习完）这些数据后，当模型看到新的图片，它就能利用原本所受的训练，来推断新的图片代表著哪一个数字。

在真实世界中，监督式学习是最频繁被产业使用的，不仅是因为现在世界所具备的庞大数据量，更是因为其演算法的简单性。例如团队可以从顾客的消费历史纪录，来训练模型，并建立推荐系统或是行销个人化与自动化等。又或是制造商能通过导入AIoT来取得产线数据，并以此训练模型让演算法能够提前判断机器失能的可能，以提高整体设备效率（OEE）。

无监督式学习（Unsupervised Learning）

在解决许多实务上的问题时，干净又标记完整的数据并非如此容易取得，而研究团队时常问出自己也不知答案方向的问题，也就是说，当不知如何分类数据，或是需要演算法去寻找同样模式时，无监督式学习将可以提供很大的帮助。无监督式学习接收未被标记的数据，并通过演算法根据常见的模式、特色、或是其他因素将数据分类。例如，可能团队手上有一大组的小狗图片，然而这些图片都没有标记出各个小狗是什么种类，这时，团队即可带入无监督式学习的演算法来做分类，输出则是演算法根据不同特色的小狗所做的分类。

其他常见的实务案例包括，顾客旅程分析（利用消费者在网页上的顾客旅程做行为分析，并以此归纳出不同购买模式的消费者）、或是寻找异常值（银行透过信用卡使用纪录来判断是否某笔交易为诈欺）。

常见的演算法及其商业应用

集群分析K-means Clustering

将数据分成不同的群组当中（k个群组），而演算法会自动将具备像似特性的数据归类为一组。在数据的维度相似、且是连续性的数值时，k-means会是非常合适的选择。分类消费者以优化行销活动或是避免客户流失判断信用交易、保险金融等活动是否异常帮助归类IT技术建设内不同的警讯

混合模型Gaussian Mixture Model

混合模型是一个可用来表示总体分佈中含有k个子分布的概率模型。也就是说，混合模型表示了数据在总体中的概率分布，是个由k个子分佈所组成的混合分佈。可以把它想成是k-menas的一般化，但在cluster的形状以及大小中有更多的自由度。从语音数据中做特征提取在影片档案中，做多种物件的追踪利用更不明显的数据特征，以区别客群，优化营销活动

阶层式分群Hierarchical Clustering

将资料在一个阶层式的树状上，反覆的利用拆分以及聚合的方式建立出一个分类系统。阶层式分群的优势在于它使用上的简单性以及能够在小数据上操作，然而却非常难处理大型的资料。更细微的区分客群或用户通过社群媒体分析来判断产品使用程度

深度学习（Deep Learning）

这个机器学习的分支利用多层次的人工神经透过数据学习，其中两种最为主要的类别为卷积神经（CNN）以及递归神经（RNN）。CNN较适合如图片、影片等的空间数据类型，透过不同阶级的特色来识别图像，例如从一个鼻子的特征、眼睛的特征、嘴巴的特征、三者彼此的关係为何、再到最后变成一张人脸。CNN的发展对于需要快速识别周围环境的自动驾驶至关重要，同时图像识别的技术，也是工业4.0的核心技术之一。 RNN则较适合如语音、文字等的序列型数据，不同于其他的神经网路，对于RNN，所有的input都是相连的，所有处理过的资讯都会在训练的过程中被记住，而也是这特色，让它非常适合处理自然语言。

虽然神经网路的技术早在数十年前就被研发出来了，但当时的环境不仅数据匮乏，运算速度以及成本都导致深度学习无法成功带进商业环境。然而随着运算速度大幅的提升、运算成本大幅的降低、以及演算法变得更加成熟，如深度学习一般的技术也开始被频繁的应用在商业环境中。

集成学习（Ensemble Learning）

集成学习是为了降低模型偏见、变数、以及提高准确度而根据不同种类的数据，在各个阶段应用不同的机器学习演算法来训练模型的演算法。集成学习在数据非常複杂，或是有多种潜在的假设时非常实用，因为它能够根据不同的假设建立模型，以定义出更明确的方向。

本文链接地址：https://schnoka-vts.com/post/113.html

标签：机器学习

上一篇：工业4.0究竟在哪些制造业领域中创造价值
下一篇：在制造业中，大数据分析将如何优化供应链以及制造过程

了解机器学习的发展趋势以及商业应用

什么是机器学习

监督式学习与非监督式学习的差异为何?

监督式学习（Supervised Learning）

无监督式学习（Unsupervised Learning）

常见的演算法及其商业应用

为您推荐

热门推荐

立即定制视觉方案

产品中心

联系方式

联系方式

关于施努卡

关注施努卡微信公众号