问题:
[单选题]我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型?
A对训练集随机采样,在随机采样的数据上建立模型
B尝试使用在线机器学习算法
C使用 PCA 算法减少特征维度
答案解析:
您可能感兴趣的问题
- 日常我们用到的云服务器.钉钉办公软件.百度网盘等应用都是云计算服务厂商提供的云计算服务。()
- 大数据的定义是()。 A指无法在可承受的时间范围内用常规软件工具进行捕捉.管理和处理的数据集合 B任何超过了一台计算机处理能力的数据量 C具有很大价值的数据 D超过个人PC机或笔记本硬盘存储容量的数据
- Mesos组件中Framework Scheduler组件是实现单个应用程序的管理和资源二次调度。()
- 常用大数据采集途径有()。 A数据服务机构。 B互联网数据采集。 CAPP移动端数据采集。 D智能感知设备。
- 大数据的处理流程的第一步就是大数据的采集与预处理。()
- 下列关于MapReduce2.0架构描述正确的有()。 AMapReduce 2.0将 JobTracker 两个主要的功能资源管理和任务调度/监控分离成单独的组件。 BMapReduce2.0架构包
- Spark运行在YARN上要比运行在Mesos上更加灵活和自然,Spark官方推荐采用这种模式。()
- Hive内部表(table)删除后,HDFS上的文件没有删除,只是把文件删除,删除元数据,不删除数据。()
- 下列关于数据仓库工具Hive架构描述正确的是( )。 A HiveQL通过命令行或者客户端提交。 B 经过Compiler编译器,运用MetaStore中的元数据进行类型检测和语法分析,生成一个逻辑方
- XenServer是Citrix(思杰)的虚拟化平台组件,开源,直接安装在裸机上,核心代码是Linux和Xen。()