俄罗斯搜索巨头Yandex开源了Gradient boosting机器学习库CatBoost,它能够在数据稀疏的情况下教机器学习。即使没有像视频、文本、图像这类的感官型数据,CatBoost也能根据事务型数据或历史数据进行操作。开源CatBoost只是Yandex新战略的一个开头。
Yandex是目前世界第五大搜索引擎
两次亮相
Yandex昨天的登台方式可不只一种。
首先,Yandex宣布,将用自研的新服务框架CatBoost替代原来的机器学习算法MartriNet。自2009年被研发出后,MartriNet一直被Yandex应用在多种任务处理上,比如排名、天气预报、出租车服务以及推荐任务上。现在,这些工作将逐渐被CatBoost取代,于未来几个月持续进行。
之后,Yandex宣布将免费提供CatBoost,任何想应用这项技术的人均可在Apache许可证下应用。CatBoost是Yandex多年研究的尖端成果,Yandex机器智能研究的主管Misha Bilenko在接受采访时表示,我们曾用过很多开源的机器学习工具,是时候向社会作出回馈了。
成为中心
Bilenko补充说,还没有计划要将CatBoost商业化,或以其他任何专利的方式将其关闭。这和竞争对手无关,他说,我们会很高兴看到竞争对手使用它。
近几年,随着Yandex实力增强,它一直在寻找提升它在俄语世界外的国际影响力。开源这项行为,不仅强调了Yandex对开源社区的承诺,还展示了Yandex想成为世界中心的雄心,无论作为大型科技公司还是更大的开发者社区。
CatBoost的三重奏
Bilenko说Yandex开源CatBoost是受到了两方面启示一是谷歌在2015年开源TensorFlow,二是Linux的b站建立与成长。正如谷歌持续发展并升级TensorFlow一样,CatBoost的第一版将继续更新并将持续迭代。目前,这一版本主要有三种特性:
减少过拟合:它可以帮你在训练项目中得到更好结果。这是基于一种专有算法来构造不同于标准Gradient boosting方案的模型。
支持类别特征:将改进你的训练结果,同时允许使用非数字的因素,而不是必须预先处理数据,或者花费时间和精力将数据转换为数字。
用户友好的API界面:它还使用了一个API接口,允许从指令行或通过API让Python或R语言使用CatBoost,包括公式分析和培训可视化工具。
调适量少
虽然有大量其他数据库帮助增加梯度或用其他解决方案帮助训练机器学习系统,但Bilenko认为CatBoost相较其他框架的优点是测试精准度高。
很多恶劣的机器学习代码需要大量调试,Bilenko说,CatBoost只需少量调试,并且性能良好。这是最重要的一个区别。
最后,附CatBoost开源代码区地址:https://catboost.yandex/祝你玩得愉快~