- Notifications
You must be signed in to change notification settings - Fork2
heloint/m14_uf1_pt1
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
Aquí teniu algunes URLs d’exemple per cercar datasets de portals de dadesobertes sobre Biomedicina.
•https://healthdata.gov/search/type/dataset•https://www.ncbi.nlm.nih.gov/datasets/•https://www.who.int/data/collections•https://data.un.org/•https://datos.gob.es/en/catalogo?theme_id=salud•https://www.idescat.cat/dades/
• Escolliu un dataset que us interessi personalment per alguna raó.• Si un grup escull un dataset, cap altre grup ja no el pot escollir.• Qui primer escriu el seu dataset al full de càlcul compartit, se’l queda.
Format tidy:
- Cada fila és una observació.
- Cada columna és una variable.
- Cada cel·la conté només una dada.
•https://www.jeannicholashould.com/tidy-data-in-python.html•http://shzhangji.com/blog/2017/09/30/pandas-and-tidy-data/•https://medium.com/@aaronmak/tidying-datasets-in-python-8634f39159bc
És important que aconseguiu que les dades estiguin en format Tidy per poder-les aprofitar per a realitzar estudis.
- Explicació del context. Què son aquestes dades? Posar referències.
- Explicar les columnes que usareu (no cal totes).a) Nomb) Tipus (string, categorical, data, número enter, decimal ...)c) Per a què serveix, si no queda clar amb el nom.
- Quantes files hi ha?
- Hi ha NAs? A on?
- Resultat final, fitxer Jupyter Notebook amb:a) Text responent les anteriors observacions.b) Codi font que permeti carregar el CSV en un dataframe i mostri les primeres línies.
- El dataset està en format «tidy»? Justifiqueu la vostra resposta.
- Si no ho està, poseu-lo en aquest format utilitzant Pandas.
- Resultat final, completar el fitxer Jupyter Notebook amb la resposta, i el codi enPandas que heu usat, si us ha fet falta.
- Si el fitxer no té valors NaN crea algunes files amb alguns valors NaN.
- Ara, aplica una d’aquestes dues operacions i justifica el motiu:a) Substituïr el valor dels NaN d’una columna per un altre valor. (operació fillna)b) Eliminar les files que tinguin algún valor NaN concret. (operació dropna)
- Resultat final, completar el fitxer Jupyter Notebook amb la resposta, i el codi enPandas que heu usat.
- Que mostri només algunes de les columnes del dataframe.
- Que filtri algunes de les files per un o més criteris.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.
- És a dir, que ordeni els valors d’una columna i mostri els primers per pantalla.
- També heu de mostrar un gràfic.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- És a dir, que la consulta crei un nou camp depenent d’un altre camp, o calculat a partird’altres columnes.
- Exemples:a) camp Apte/NoApte depenent de les notes d’alumnesb) càlcul imc a partir del pes i l’alçada.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.
- Si no teniu un camp que es pugui convertir a tipus categòric, haureu de crear-ne un.
- També heu de mostrar un gràfic de totes les categories.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- És a dir, que si les dades no estan agrupades les haureu d’agrupar per data; ja sigui perany, per mes o per dia.
- També heu de mostrar un gràfic.
- Resultat final, Jupyter Notebook o projecte Python amb el codi i el gràfic.
- Tria una de les 2 operacions:a) Fes una còpia del dataSet, aconsegueix crear 2 dataSet amb camps i files separatsperò que comparteixin un camp comú, i després fes el merge.b) Si el teu dataSet està desactualitzat o falten dades d'alguns anys i les trobes dades peraltres fonts, crea un nou conjunt de dades amb algunes files i/o alguna columna nova.Finalment, fes el merge.
- Resultat final, Jupyter Notebook o projecte Python amb el codi.