Dataset Iris

Abbozzo informatica
Questa voce sull'argomento informatica è solo un abbozzo.
Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Segui i suggerimenti del progetto di riferimento.
Grafico di dispersione

Il dataset Iris è un dataset multivariato introdotto da Ronald Fisher nel 1936. Consiste in 150 istanze di Iris misurate da Edgar Anderson e classificate secondo tre specie: Iris setosa, Iris virginica e Iris versicolor. Le quattro variabili considerate sono la lunghezza e la larghezza del sepalo e del petalo. A causa di errori, esistono diverse versioni del dataset utilizzate nella letteratura scientifica.[1]

Il dataset Iris viene utilizzato nell'ambito dell'apprendimento automatico come esempio di classificazione statistica.[2][3]

Note

  1. ^ (EN) Bezdek, J.C., Keller, J.M.; Krishnapuram, R.; Kuncheva, L.I.; Pal, N.R., Will the real iris data please stand up?, in IEEE Transactions on Fuzzy Systems, vol. 7, n. 3, IEEE, 1999, pp. 368-369, DOI:10.1109/91.771092, ISSN 1063-6706 (WC · ACNP).
  2. ^ (EN) An introduction to machine learning with scikit-learn, su scikit-learn.
  3. ^ (EN) Yanchang Zhao, R and Data Mining: Examples and Case Studies (PDF), 26 aprile 2013.

Bibliografia

  • (EN) R. A. Fisher, The use of multiple measurements in taxonomic problems, in Annual Eugenics, vol. 7, n. 2, 1936, pp. 179-188, DOI:10.1111/j.1469-1809.1936.tb02137.x.
  • Edgar Anderson, The species problem in Iris, in Annals of the Missouri Botanical Garden, vol. 23, n. 3, 1936, pp. 457-509.

Collegamenti esterni

  • (EN) Iris Data Set, su UC Irvine Machine Learning Repository.
  Portale Informatica
  Portale Statistica