Application of machine learning for predictions of consecutive dependent data of type {[(a, b)->c]->d}
Objective: Machine learning techniques have emerged in response to the desire for automatic pattern detection withindatasets in fields such as statistics, mathematics, and data analytics. They allow for the extraction of relevant informationfrom datasets of significantly large volumes, providing the...
Saved in:
| Published in | Tecnura Vol. 28; no. 79; pp. 66 - 86 |
|---|---|
| Main Authors | , , |
| Format | Journal Article |
| Language | English |
| Published |
Universidad Distrital Francisco Jose de Caldas
01.01.2024
|
| Subjects | |
| Online Access | Get full text |
| ISSN | 0123-921X 2248-7638 2248-7638 |
| DOI | 10.14483/22487638.22094 |
Cover
| Summary: | Objective: Machine learning techniques have emerged in response to the desire for automatic pattern detection withindatasets in fields such as statistics, mathematics, and data analytics. They allow for the extraction of relevant informationfrom datasets of significantly large volumes, providing the possibility of making predictions. This paper presents an application focused on decision trees, linear regression, and random forest regression algorithms to predict final data fromconsecutive dependent data of type {[(a, b) → c] → D}.
Methodology: The study adopts a quantitative research design, which takes as input datasets based on interval data. It utilizes a correlational research model by implementing Python and its Scikit-Learn library, which includes various algorithms for prediction. Specifically, we compare the application of decision trees, linear regression, and random forest regression on the same set of datasets, but with a characteristic of dependency between them.
Results: Upon application of the proposed model, it yields an estimated prediction score, which indicates the accuracy of the model concerning the data provided.
Conclusions: The application of a complex algorithm does not inherently guarantee a higher rate of accuracy. Conversely, configuring the model correctly, training multiple trees, or adjusting parameter values can significantly enhance the obtained results
Objetivo: Las técnicas de Machine Learning surgen como una respuesta al deseo de detectar automáticamente patrones en un conjunto de datos (datasets) en campos como la estadística, la matemática y la analítica de datos, permitiendo extraer información relevante de datasets de volúmenes significativamente grandes y realizar predicciones. Éste artículo presenta una aplicación enfocada en los algoritmos de árboles de decisión, regresión lineal y regresión aleatoria de tipo bosque para predecir un dato final a partir de datos dependientes consecutivos de tipo {[(a, b) → c] → D}.
Metodología: Se parte de un diseño de investigación cuantitativo, que toma como insumo unos datasets basados en datos de intervalo, establecidos en un modelo de investigación correlacional al aplicar Python y su librería Scikit-learn. Esta biblioteca incluye diferentes algoritmos que pueden ser utilizados para realizar predicciones. En este caso, se compara la aplicación de árboles de decisión, regresión lineal y regresión aleatoria de tipo bosque sobre un mismo grupo de datasets, pero que tienen una característica de dependencia entre ellos.
Resultados: Cuando se aplica el modelo propuesto, este genera un puntaje estimado de la predicción, el cual indica la precisión del modelo respecto a los datos entregados.
Conclusiones: La aplicación de un algoritmo complejo no garantiza un mayor índice de precisión; por el contrario, configurar de manera correcta el modelo, entrenando múltiples árboles o cambiando los valores de los parámetros mejora en gran medida los resultados obtenidos |
|---|---|
| ISSN: | 0123-921X 2248-7638 2248-7638 |
| DOI: | 10.14483/22487638.22094 |