我尝试构建两个dataframe,以过滤来自原始数据集df
的行。
具体来说,我选择了具有两个字段A
和B
(不为null)的所有行,从而定义了称为df_train
的数据集。
我想创建一个数据集df_test
,其中包括df_train
中未包含的所有行,即df-df_train
。
我尝试如下:
df_test=df[~df.isin(df_train)]
但是我有整个数据集(df
有1107行,df_train
479)。
数据集包含以下列:ID, A, B, C
。
我认为这与数据集的内容无关,但是如果需要,请告诉我,我将添加它。
分析解答
当您拿到火车时,它应该沿用原始df的index
df_test = df.drop(df_train.index)