从另一列pandas df分配值的有效方法
问题内容:
我正在尝试创建一个更高效的脚本,该脚本column
在另一列中基于新值创建新的脚本。下面的脚本执行了此操作,但是我一次只能选择一个string
。我想对所有单个值执行此操作。
对于df
下面我目前正在运行的每个单独的脚本string
在Location
。但是,我想在所有脚本上运行脚本unique
strings
。
说明如何在新列分配:每个人string
在Location
得到一个值前3个独特的项目Day
。因此,对于中的每个值Location
,都会为中的前三个唯一值分配一个新的字符串Day
。
import pandas as pd
import numpy as np
d = ({
'Day' : ['Mon','Tues','Wed','Wed','Thurs','Thurs','Fri','Mon','Sat','Fri','Sun'],
'Location' : ['Home','Home','Away','Home','Away','Home','Home','Home','Home','Away','Home'],
})
df = pd.DataFrame(data=d)
#Select value
mask = df['Location'] == 'Home'
df1 = df[mask].drop_duplicates('Day')
d = dict(zip(df1['Day'], np.arange(len(df1)) // 3 + 1))
df.loc[mask, 'Assign'] = df.loc[mask, 'Day'].map(d)
目前,我正在选择中的每个值['Location']
,例如mask = df['Location'] == 'Home'
。
我想在所有价值上做到这一点。 例如mask = df['Location'] == All unique values
预期输出:
Day Location Assign
0 Mon Home C1
1 Tues Home C1
2 Wed Away C2
3 Wed Home C1
4 Thurs Away C2
5 Thurs Home C3
6 Fri Home C3
7 Mon Home C1
8 Sat Home C3
9 Fri Away C2
10 Sun Home C4
问题答案:
您可以使用:
def f(x):
#get unique days
u = x['Day'].unique()
#mapping dictionary
d = dict(zip(u, np.arange(len(u)) // 3 + 1))
x['new'] = x['Day'].map(d)
return x
df = df.groupby('Location', sort=False).apply(f)
#add Location column
s = df['new'].astype(str) + df['Location']
#encoding by factorize
df['new'] = pd.Series(pd.factorize(s)[0] + 1).map(str).radd('C')
print (df)
Day Location new
0 Mon Home C1
1 Tues Home C1
2 Wed Away C2
3 Wed Home C1
4 Thurs Away C2
5 Thurs Home C3
6 Fri Home C3
7 Mon Home C1
8 Sat Home C3
9 Fri Away C2
10 Sun Home C4