ML-机器学习简述

通过历史数据学习到一个模型，通过模型预测未来
f: x->y

有监督学习:
有监督学习的数据集包含了样本x与样本的标签y，算法学习需要学习到映射 $ f_{\theta}: x \rightarrow y$,其中 $ f_{\theta} $代表模型函数 $ \theta $为模型参数。在训练时, 通过计算模型的预测值$ f_{\theta}(x) $ 与真实标签 $ y $之间的误差来优化网络参数$ \theta $, 使得网络的下一次预测更精准。如线性回归, 逻辑回归, 支持向量机, 随机森林
无监督学习:
只有样本$x$的数据集, 算法本身需要自行发现数据的模态。如自编码器，生成对抗网络
强化学习: 通过与环境进行交互来学习解决问题的策略。强化学习并没有明确的”正确的”动作监督信号,算法需要与环境进行交互,获取环境反馈的滞后的奖励。如DQN, PPO