java - 在 java/groovy ( 数据挖掘,机器学习) 中,机器学习挑战:诊断程序

  显示原文与译文双语对照的内容
0 0

我正在计划用Java开发程序,它将提供诊断。 数据集分为两个部分,一个用于训练,另一个用于测试。 我的程序应该学会从训练数据分类( 顺便说一句,每个新列包含 30回答问题,每个记录在新行最后一列将诊断 0或者 1,诊断测试的一部分数据列是空的——数据集包含 1000记录) 然后在测试的一部分数据做出预测:/

我从未做过类似的事情,所以我将欣赏任何关于类似问题的建议或者信息。

我在想java机器学习库或java数据挖掘包但我不确定它是正确的方向。 我还是不确定如何应对这个挑战。

请指教。

所有最好的 !

时间: 原作者:

0 0

我强烈建议你使用 Weka 为你的任务
它是一个机器学习算法的集合,有一个用户友好的front-end,它可以帮助很多不同的特性和模型选择策略
你可以做很多复杂的事情,而不用做任何编码或者数学
制造商还发布了一个相当好的教科书,它解释了数据挖掘的实际方面
一旦你掌握了窍门,你就可以使用它的API将它的任何分类器集成到你自己的java程序中

原作者:
0 0

有多种算法属于"机器学习"类别,对于你的情况而言,这取决于你处理的数据类型。

如果你的数据基本上是由一组问题的映射组成的,这些问题的诊断都可以是是/否,那么我认为可能的方法包括基于测试数据自动构建决策树的神经网络和方法。

我将查看一些标准文本,比如 Russel & Norvig ("人工智能: 一个现代的方法") 和其他介绍 ai/机器学习的方法,看看你是否能很容易地适应他们对你的特定数据的算法。 另请参阅 O'Reilly,"编程集体智能",用于一些可能适用于你的案例的示例 python 代码的示例代码。

如果你能阅读西班牙语,墨西哥出版社Alfaomega最近也发布了很多好的AI-related简介。

原作者:
0 0

这是一个分类问题,不是真正的数据挖掘。 一般方法是从每个数据实例提取特征,并让分类算法从特性和结果( 你是 0还是 1 ) 中学习一个模型。 假设你的30个问题都是它自己的特性。

你可以使用多种分类技术。 支持向量机是最受欢迎的最大熵。 我没有使用过Java机器学习库,但我看了一眼。 OpenNLP项目具有最大熵实现。 LibSVM有一个支持向量机实现。 你几乎肯定要修改你的数据到图书馆能理解的东西。

祝你好运

更新:我同意其他评论,Russel和Norvig是一个伟大的人工智能书,它讨论了。 "bishop识别和机器学习模式"深入讨论了分类问题,如果你对下面的细节感兴趣。

...