开源备受推崇的原因有很多,人们相信它经过众多专业贡献者的努力后是可靠的。然而,在推荐算法领域,其结果的“可靠性”值得商榷。
推荐算法通过筛选和预测与用户的偏好和行为一致的可能性,引导用户发现符合他们偏好的内容、产品和服务,基于数据分析为人们提供产品、服务或信息。例如:引导在线购物者购买他们下一个可能喜欢/最喜欢的产品。推荐算法是在数字平台上推动用户首选操作的隐藏力量。通过帮助消费者识别他们可能会喜欢的新项目和内容来改善用户体验,从而为企业带来参与度和收入。然而,平台对内容分发的控制、不透明的运营标准、推广有害内容等风险使得人们呼吁将算法公诸于众。
然而,以下问题即使在推荐算法开源后,仍然需要面对,包括:隐私问题、激励问题、个性化问题,以及算法复杂度问题。
隐私问题&激励问题—虽然开源推荐算法可以让人们深入了解推荐的意图,但披露算法本身并不能解决算法所面临的更大的激励问题。以贝叶斯的博弈中提到的在战争中统计士兵吸食大麻实验为例:实验设计要求士兵在回答前抛掷硬币,背面向上就诚实回答,正面向上则直接做出肯定的回答。实验具有随机性,然而数学证明即使在这一随机性下,仍然有相当高(75%)的置信度可以推测出事实,士兵仍然无法做到真正的隐私保护。当然,引入差分隐私算法后,可以更有效的解决上述问题。然而研究发现,通过开源情报进行交叉验证,假名化依然毫无隐私可言。因此,统计信息如何以允许各方在不牺牲隐私的情况下得出近似正确的结论并披露是个非常具有挑战性的问题。在网络安全领域,用户是否愿意积极配合即处于这样的场景中,例如:钓鱼邮件是否是网络安全意识工程的一部分;对钓鱼邮件的举报将会得到怎样的网络安全部门的反馈。
个性化问题—除了激励问题,“兴趣点”也是算法所需要解决的重要问题。推荐算法如何分配内容很大程度上取决于对兴趣点的预测。然而,内容的个性化难度需要考虑到即使是关注了相同事物的不同用户,仍然有可能会喜欢不同内容,这背后取决于“品味”。“读懂”用户的思想并了解他们的确切偏好几乎是不可能的,虽然机器学习模型可以利用过去的行为来预测问题的答案,然而在“品味”方面仍有很大提高空间。
另外,算法的复杂性决定了即使在开源的情况下,想要完全了解它们也是非常困难的。现代算法模型使用了数以百万、千万甚至更多的特征进行预测,尤其是算法在微妙的心理学情境下进行工作所面对的特征之间的相互作用,对应的是可解释模型的研究仍然处于起步阶段。
推荐算法能够有效改善用户体验并推动企业发展,其工作结果不仅为消费者有针对性的定制其访问内容,还能够帮助企业策略性地管理内容分发并获取有关用户行为的基本信息。随着技术的进步,尤其是LLM与AI Agent的发展,将会出现更多越来越复杂、上下文感知和以用户为中心的推荐系统,这些系统不仅可以满足用户的要求和偏好,还可以预测用户的要求和偏好,从而与数字平台建立更具吸引力和认可度的关系。但是,其“可靠性”需要更多的关注和研究。