Application of machine learning for predictions of consecutive dependent data of type {[(a, b)->c]->d}

Objective: Machine learning techniques have emerged in response to the desire for automatic pattern detection withindatasets in fields such as statistics, mathematics, and data analytics. They allow for the extraction of relevant informationfrom datasets of significantly large volumes, providing the...

Full description

Saved in:

Bibliographic Details
Published in	Tecnura Vol. 28; no. 79; pp. 66 - 86
Main Authors	Quevedo Piratova, Diego Alexander, Londoño Villalba, Jhon Uberney, Gonzalez Gomez, Arnaldo Andres
Format	Journal Article
Language	English
Published	Universidad Distrital Francisco Jose de Caldas 01.01.2024
Subjects	algorithms algoritmos datasets decision trees learn linear regression prediction Python regresión lineal scikit scikit-learn árboles de decisión
Online Access	Get full text
ISSN	0123-921X 2248-7638 2248-7638
DOI	10.14483/22487638.22094

Cover

More Information
Summary:	Objective: Machine learning techniques have emerged in response to the desire for automatic pattern detection withindatasets in fields such as statistics, mathematics, and data analytics. They allow for the extraction of relevant informationfrom datasets of significantly large volumes, providing the possibility of making predictions. This paper presents an application focused on decision trees, linear regression, and random forest regression algorithms to predict final data fromconsecutive dependent data of type {[(a, b) → c] → D}. Methodology: The study adopts a quantitative research design, which takes as input datasets based on interval data. It utilizes a correlational research model by implementing Python and its Scikit-Learn library, which includes various algorithms for prediction. Specifically, we compare the application of decision trees, linear regression, and random forest regression on the same set of datasets, but with a characteristic of dependency between them. Results: Upon application of the proposed model, it yields an estimated prediction score, which indicates the accuracy of the model concerning the data provided. Conclusions: The application of a complex algorithm does not inherently guarantee a higher rate of accuracy. Conversely, configuring the model correctly, training multiple trees, or adjusting parameter values can significantly enhance the obtained results Objetivo: Las técnicas de Machine Learning surgen como una respuesta al deseo de detectar automáticamente patrones en un conjunto de datos (datasets) en campos como la estadística, la matemática y la analítica de datos, permitiendo extraer información relevante de datasets de volúmenes significativamente grandes y realizar predicciones. Éste artículo presenta una aplicación enfocada en los algoritmos de árboles de decisión, regresión lineal y regresión aleatoria de tipo bosque para predecir un dato final a partir de datos dependientes consecutivos de tipo {[(a, b) → c] → D}. Metodología: Se parte de un diseño de investigación cuantitativo, que toma como insumo unos datasets basados en datos de intervalo, establecidos en un modelo de investigación correlacional al aplicar Python y su librería Scikit-learn. Esta biblioteca incluye diferentes algoritmos que pueden ser utilizados para realizar predicciones. En este caso, se compara la aplicación de árboles de decisión, regresión lineal y regresión aleatoria de tipo bosque sobre un mismo grupo de datasets, pero que tienen una característica de dependencia entre ellos. Resultados: Cuando se aplica el modelo propuesto, este genera un puntaje estimado de la predicción, el cual indica la precisión del modelo respecto a los datos entregados. Conclusiones: La aplicación de un algoritmo complejo no garantiza un mayor índice de precisión; por el contrario, configurar de manera correcta el modelo, entrenando múltiples árboles o cambiando los valores de los parámetros mejora en gran medida los resultados obtenidos
ISSN:	0123-921X 2248-7638 2248-7638
DOI:	10.14483/22487638.22094