Cum se adaugă o nouă coloană DataFrame în Python

Vom folosi Top 50 de melodii de anul trecut

O scurtă introducere

Această postare presupune că ați instalat pachetele necesare și va folosi aplicația Jupyter Notebook pentru a rula Python.

Un Python DataFrame este o structură de date bidimensională, similară cu aspectul unui tabel în Excel. Are rânduri și coloane și este susținut de biblioteca Python pandas. Puteți manipula DataFrame adăugând coloane noi și puteți utiliza expresii lambda pentru a completa coloanele respective.

Cum să găsiți și să pregătiți un set de date

Mai întâi, trebuie să găsiți un set de da t cu care să lucrați. Kaggle este o resursă excelentă pentru obținerea unor seturi de date gestionabile. Am selectat una care oferă informații despre primele 50 de melodii din 2019, numită „top50.csv”.

Am descărcat fișierul din Kaggle , l-am dezarhivat și l-am deschis în Excel.

Acolo, am efectuat câteva curățări de date pentru ca setul de date să fie lizibil în Jupyter Notebook. Aceasta a constat în înlocuirea personajelor speciale din numele artistelor și albumelor cu omologi mai simpli. În scopul utilizării mele limitate, caracterele speciale nu erau necesare.

Este important să rețineți că înlocuirea părților dintr-un set de date ar trebui făcută cu o atenție extremă. Nu doriți să îi compromiteți integritatea. Dacă înlocuiți sau ștergeți componente, este o obișnuință bună să faceți note despre modificări.

Mi-am salvat datele curățate ca fișier CSV pe desktop.

Afișați DataFrame în Jupyter Notebook

Apoi, am deschis Jupyter Notebook de la terminalul meu, am importat panda și mi-am importat fișierul CSV în timp ce l-am atribuit simultan unei variabile numite „df”.

Apoi, am verificat primele cinci rânduri ale DataFrame cu metoda .head (), care implicit sunt cinci rânduri returnate. Dacă doriți să se returneze un alt număr de rânduri, introduceți doar o valoare întreagă în paranteze.

Iată cum aș afișa doar 3 rânduri din DataFrame. Rețineți linia cu „df.head (3)”.

Creați o nouă coloană cu valori

Acum, suntem în sfârșit la etapa în care putem crea o nouă coloană.

Dacă te uiți la coloana intitulată „Lungime”, vei vedea că durata fiecărei melodii este dată în secunde. Să presupunem că dorim și durata în minute, rotunjită la cea mai apropiată valoare întreagă. Vom pune această valoare pentru fiecare melodie într-o coloană intitulată „Minute”.

Putem crea simultan noua coloană și o putem completa cu valori folosind codul de mai jos.

Iată o defalcare a ceea ce facem.

df [„Minute”] creează noua coloană, dar va funcționa numai dacă setați acea coloană egală cu valorile sale. Acesta este motivul pentru care avem instrucțiunile din partea dreaptă a semnului egal. În cazul nostru, luăm valorile din „Lungime”. coloană, împărțindu-le la 60 pentru a converti secundele în minute, apoi rotunjind fiecare valoare pentru a returna cel mai apropiat număr întreg.

Să mărim funcția lambda din cod. Numele „lungime” în acest caz este doar un nume variabil. L-am fi putut numi „x” sau „mandarină”. Nu contează. Iată o explicație a acestui segment: „.apply (lambda length: round (length / 60))”

După ce rulați acest cod, vă puteți verifica din nou DataFrame. Veți vedea că aveți o nouă coloană cu valori minute pentru fiecare melodie.

Utilizarea funcțiilor lambda este o modalitate eficientă de a adăuga rapid coloane noi în DataFrame, mai ales dacă sunteți în faza de cercetare.

Iată un rezumat al ceea ce am acoperit:

Dacă doriți să citiți mai multe postări despre programare, verificați aceste aspecte: