Movatterモバイル変換


[0]ホーム

URL:


Vés al contingut
Viquipèdial'Enciclopèdia Lliure
Cerca

Validació encreuada

De la Viquipèdia, l'enciclopèdia lliure

Lavalidació encreuada[1]cross-validation en anglès— és unatècnica utilitzada peravaluar els resultats d'una anàlisiestadística i garantir que són independents de la partició entredades d'entrenament i prova. Consisteix a repetir icalcular lamitjana aritmètica obtinguda de lesmesures d'avaluació sobre diferents particions. S'utilitza en entorns on l'objectiu principal és la predicció i es vol estimar com és deprecís un model que es durà a terme a la pràctica.[2] És una tècnica molt utilitzada en projectes d'intel·ligència artificial per a validar models generats.

Esquema k-fold cross validation, amb k=4 i amb un sol classificador.[3]

Context

[modifica]

La validació creuada prové de la millora del mètode de retenció oholdout method. Aquest consisteix adividir en dosconjuntscomplementaris les dades de mostra, realitzar l'anàlisi d'unsubconjunt (anomenat dades d'entrenament otraining set), i validar l'anàlisi en l'altre subconjunt (anomenat dades de prova otest set), de manera que lafunció d'aproximació només s'ajusta amb el conjunt de dades d'entrenament i a partir d'aquí calcula els valors de sortida per al conjunt de dades de prova (valors que no ha analitzat abans). L'avantatge d'aquest mètode és que és molt ràpid a l'hora decomputar. No obstant això, aquest mètode no és massaprecís degut a la variació del resultats obtinguts per a diferents dades d'entrenament. L'avaluació pot dependre en gran manera de quina és ladivisió entre dades d'entrenament i de prova i, per tant, pot ser significativament diferent en funció de com es realitzi aquesta divisió.Degut a aquestes mancances apareix el concepte de validació encreuada.[4]

Mètode de retenció

Objectiu de la validació encreuada

[modifica]

Suposem que tenim un model amb un o mésparàmetres d'ajust desconeguts i unesdades d'entrenament que volem analitzar. El procés d'ajustoptimitza els paràmetres del model perquè aquest s'ajusti a les dades d'entrenament tan bé com pugui. Si agafem una mostra independent com a dada de prova (validació), del mateix grup que les dades d'entrenament, normalment el model no s'ajustarà a les dades de prova tan bé com a les dades d'entrenament. Això s'anomenasobre-ajust i acostuma a passar quan la mida de les dades d'entrenament és petita o quan el nombre deparàmetres del model és gran. La validació encreuada és una manera de predir l'ajust d'un model a unhipotètic conjunt de dades de prova quan no disposem del conjunt explícit de dades de prova.[5]

Tipus de validacions creuades

[modifica]

Validació encreuada deK iteracions

[modifica]

En la validació encreuada deK iteracions oK-fold cross-validation les dades de mostra es divideixen enKsubconjunts. Un dels subconjunts s'utilitza com a dades de prova i la resta (K-1) com a dades d'entrenament. El procés de validació encreuada és repetit durantk iteracions, amb cada un dels possibles subconjunts de dades de prova. Finalment es realitza lamitjana aritmètica dels resultats de cada iteració per a obtenir un únic resultat. Aquests mètode és molt precís, ja que avaluem a partir deK combinacions de dades d'entrenament i de prova, però tot i així té un desavantatge, i és que, a diferència del mètode de retenció, és lent des del punt de vistacomputacional.[5] A la pràctica, l'elecció del nombre d'iteracions depèn de la mida del conjunt de dades. El més comú és utilitzar la validació encreuada de 10 iteracions (10-fold cross-validation).[6]

Validació encreuada deK iteracions ambK=4.

Validació encreuada aleatòria

[modifica]

Aquest mètode consisteix a dividiraleatòriament el conjunt de dades d'entrenament i el conjunt de dades de prova. Per a cada divisió la funció d'aproximació s'ajusta a partir de les dades d'entrenament i calcula els valors de sortida per al conjunt de dades de prova. El resultat final es correspon a lamitjana aritmètica dels valors obtinguts per a les diferents divisions. L'avantatge d'aquest mètode és que la divisió de dades entrenament-prova no depèn del nombre d'iteracions. Però en canvi amb aquest mètode hi ha algunes mostres que queden senseavaluar i d'altres que s'avaluen més d'una vegada, és a dir, elssubconjunts de prova i entrenament es poden solapar.[7]

Validació encreuada aleatòria ambk iteracions

Validació encreuada deixant-ne un fora

[modifica]

La validació encreuada deixant-ne un fora oLeave-one-out cross-validation (LOOCV) implica separar les dades de manera que per a cada iteració tinguem una sola mostra per a les dades de prova i tota la resta conformant les dades d'entrenament. L'avaluació ve donada per l'error, i en aquest tipus de validació encreuada l'error és molt baix, però en canvi, a nivellcomputacional és molt costós, ja que s'han de realitzar un elevat nombre d'iteracions, tantes comN mostres tinguem i per a cada una analitzar les dades tant d'entrenament com de prova.[8]

Validació encreuada deixant un fora(LOOCV)

Càlcul de l'error

[modifica]

L'avaluació de les diferents validacions creuades normalment ve donada per l'error obtingut en cada iteració, ara bé, per cada un dels mètodes pot variar el nombre d'iteracions, segons l'elecció del dissenyador en funció del nombre dedades total.[9]

Error de la validació encreuada deK iteracions

[modifica]

En cadascuna de les k iteracions d'aquest tipus de validació es realitza uncàlcul d'error. El resultat final l'obtenim a partir de realitzar lamitjana aritmètica delsK valors d'errors obtinguts, segons lafórmula:

E=1Ki=1KEi.{\displaystyle {E}={\frac {1}{K}}\sum _{i=1}^{K}E_{i}.}

És a dir, es realitza elsumatori delsK valors d'error i esdivideix entre el valor deK.

Error de la validació encreuada aleatòria

[modifica]

En la validació encreuada aleatòria a diferència del mètode anterior, agafem mostres a l'atzar durant k iteracions, tot i que d'igual manera, es realitza uncàlcul d'error per a cada iteració. El resultat final també l'obtenim a partir de realitzar lamitjana aritmètica delsK valors d'errors obtinguts, segons la mateixafórmula:

E=1Ki=1KEi.{\displaystyle {E}={\frac {1}{K}}\sum _{i=1}^{K}E_{i}.}

Error de la validació encreuada deixant un fora

[modifica]

En la validació encreuada deixant un fora es realitzen tantes iteracions com mostres (N) tingui elconjunt dedades. De manera que per a cada una de les N iteracions es realitza un càlcul d'error. El resultat final l'obtenim realitzant lamitjana aritmètica delsN valors d'errors obtinguts, segons lafórmula:

E=1Ni=1NEi.{\displaystyle {E}={\frac {1}{N}}\sum _{i=1}^{N}E_{i}.}

On es realitza elsumatori delsN valors d'error i esdivideix entre el valor deN.

Mesures d'ajust

[modifica]

L'objectiu de la validació encreuada consisteix a estimar el nivell d'ajust d'un model a un cert conjunt de dades de prova independents de les utilitzades per entrenar el model. Aquestes mesures obtingudes poden ser utilitzades perestimar qualsevol mesura quantitativa d'ajust apropiada per a les dades i el model. Per exemple, en un model basat enclassificacióbinària, cada mostra es preveu com a correcta o incorrecta (si pertany a la temàtica o no), de manera que en aquest cas, la taxa d'error de classificació pot ser utilitzada per resumir l'ajust del model.

Exemples d'aplicació

[modifica]
  • La validació encreuada es pot utilitzar per comparar els resultats de diferents procediments de classificació predictiva. Per exemple, suposem que tenim un detector que ens determina si una cara pertany a unadona o a unhome i considerem que han estat utilitzats dos mètodes diferents, per exemple,màquina de vector de suport(support vector machines, SVM) ik veïns més propers(k nearest neighbors, KNN) que ens permeten classificar lesimatges. Doncs amb la validació encreuada podem comparar els dos procediments i determinar quin dels dos mètodes és mésprecís. Aquesta informació ens la proporciona lataxa d'error que obtenim en aplicar la validació encreuada per cadascun dels mètodes plantejats.
  • La validació encreuada de "k" iteracions (k-fold cross validation) permetavaluar també models en els que s'utilitzen diversos classificadors, per exemple, continuant amb el cas anterior, si tenim un detector que ens determina si en unaimatge hi apareix unhome o unadona, i aquest utilitza 4 classificadorsbinaris per detectar-ho, també podem utilitzar la validació encreuada per avaluar la sevaprecisió. Si tenim un total de 20 dades (imatges), i utilitzem un4-fold cross validation, es duran a terme 4 iteracions, i en cada una s'utilitzaran unes dades d'entrenament diferents, que seran analitzades per 4 classificadors, que posteriormentavaluaran les dades de prova, d'aquesta manera per cada mostra obtindrem 4 resultats, i si fem la mitjana entre els resultats de cada classificador i entre les 4 iteracions realitzades obtindrem el valor resultant final.
k-fold cross validation, amb k=4 i amb 4 classificadors.

Referències

[modifica]
  1. «validació encreuada amb un». Termcat. [Consulta: 9 abril 2020].
  2. Devijver, P. A., and J. Kittler, Pattern Recognition: A Statistical Approach, Prentice-Hall, London, 1982
  3. Jean-Philippe Lang,Predictors tutorialArxivat 2014-01-03 aWayback Machine.,Bioinformatic Department Projects
  4. Jeff Schneider,The holdout method,The school of computer science, 7 de Febrer de 1997
  5. 5,05,1Payam Refaeilzadeh, Lei Tang, Huan Lui,k-fold Cross-ValidationArxivat 2011-09-05 aWayback Machine.,Arizona State University, 6 de novembre de 2008
  6. FH Joanneum,Cross-Validation Explained,Institute for Genomics and Bioinformatics, 2005-2006
  7. Andrew W. Moore,Cross-validation for detecting and preventing overfittingArxivat 2011-08-10 aWayback Machine.,Carnegie Mellon University
  8. Charles Elkan,Evaluating ClassifiersArxivat 2011-12-18 aWayback Machine.University of California, San Diego, 18 de gener de 2011
  9. Ricardo Gutierrez-Osuna,Leave-one-out Cross ValidationArxivat 2012-12-02 aWayback Machine.Wright State University

Vegeu també

[modifica]

Enllaços externs

[modifica]
Obtingut de «https://ca.wikipedia.org/w/index.php?title=Validació_encreuada&oldid=35969619»
Categories:
Categoria oculta:

[8]ページ先頭

©2009-2025 Movatter.jp