데이터 프레임에서 이름별로 열을 삭제하는 방법

Programing

데이터 프레임에서 이름별로 열을 삭제하는 방법

lottogame 2020. 3. 24. 07:59

데이터 프레임에서 이름별로 열을 삭제하는 방법

큰 데이터 세트가 있으며 특정 열을 읽거나 다른 열을 모두 삭제하고 싶습니다.

data <- read.dta("file.dta")

관심이없는 열을 선택합니다.

var.out <- names(data)[!names(data) %in% c("iden", "name", "x_serv", "m_serv")]

그리고 내가하고 싶은 것보다 :

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

불필요한 열을 모두 삭제합니다. 이것이 최적의 솔루션입니까?

인덱싱 또는 subset함수를 사용해야합니다 . 예를 들면 다음과 같습니다.

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8

그런 다음 열 인덱싱에서 which함수와 -연산자를 사용할 수 있습니다 .

R> df[ , -which(names(df) %in% c("z","u"))]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

또는 훨씬 더 간단하게 함수 의 select인수 subset를 사용하십시오. 그런 다음 -열 이름의 벡터에서 직접 연산자 를 사용할 수 있으며 이름 주위에 따옴표를 생략 할 수도 있습니다!

R> subset(df, select=-c(z,u))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

다른 열을 삭제하지 않고 원하는 열을 선택할 수도 있습니다.

R> df[ , c("x","y")]
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

R> subset(df, select=c(x,y))
  x y
1 1 2
2 2 3
3 3 4
4 4 5
5 5 6

이것을 사용하지 마십시오 -which(). 매우 위험합니다. 치다:

dat <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
dat[ , -which(names(dat) %in% c("z","u"))] ## works as expected
dat[ , -which(names(dat) %in% c("foo","bar"))] ## deletes all columns! Probably not what you wanted...

대신 부분 집합 또는 !함수를 사용하십시오.

dat[ , !names(dat) %in% c("z","u")] ## works as expected
dat[ , !names(dat) %in% c("foo","bar")] ## returns the un-altered data.frame. Probably what you want

나는 고통스러운 경험에서 이것을 배웠다. 남용하지 마십시오 which()!

먼저 동일한 데이터 프레임으로 작업하는 경우 열 이름에 다시 액세스하는 대신 부울 벡터를 사용하여 직접 인덱싱을 사용할 수 있습니다. Ista가 지적한대로 더 안전하고 작성하고 실행하는 것이 더 빠릅니다. 따라서 필요한 것은 다음과 같습니다.

var.out.bool <- !names(data) %in% c("iden", "name", "x_serv", "m_serv")

그런 다음 간단히 데이터를 다시 할당하십시오.

data <- data[,var.out.bool] # or...
data <- data[,var.out.bool, drop = FALSE] # You will need this option to avoid the conversion to an atomic vector if there is only one column left

둘째 , 더 빨리 작성하려면 제거하려는 열에 NULL을 직접 지정할 수 있습니다.

data[c("iden", "name", "x_serv", "m_serv")] <- list(NULL) # You need list() to respect the target structure.

마지막으로 서브셋 ()을 사용할 수 있지만 실제로는 코드에서 사용할 수 없습니다 (도움말 파일에서도 경고). 특히 나에게 문제는 susbset ()의 드롭 기능을 직접 사용하려면 열 이름에 해당하는 표현식을 따옴표없이 작성해야한다는 것입니다.

subset( data, select = -c("iden", "name", "x_serv", "m_serv") ) # WILL NOT WORK
subset( data, select = -c(iden, name, x_serv, m_serv) ) # WILL

보너스로 , 여기에 다른 옵션의 작은 벤치 마크가 있습니다. 이는 하위 집합이 느리고 첫 번째 재 할당 방법이 더 빠름을 분명히 보여줍니다.

                                        re_assign(dtest, drop_vec)  46.719  52.5655  54.6460  59.0400  1347.331
                                      null_assign(dtest, drop_vec)  74.593  83.0585  86.2025  94.0035  1476.150
               subset(dtest, select = !names(dtest) %in% drop_vec) 106.280 115.4810 120.3435 131.4665 65133.780
 subset(dtest, select = names(dtest)[!names(dtest) %in% drop_vec]) 108.611 119.4830 124.0865 135.4270  1599.577
                                  subset(dtest, select = -c(x, y)) 102.026 111.2680 115.7035 126.2320  1484.174

마이크로 벤치 그래프

코드 는 다음과 같습니다.

dtest <- data.frame(x=1:5, y=2:6, z = 3:7)
drop_vec <- c("x", "y")

null_assign <- function(df, names) {
  df[names] <- list(NULL)
  df
}

re_assign <- function(df, drop) {
  df <- df [, ! names(df) %in% drop, drop = FALSE]
  df
}

res <- microbenchmark(
  re_assign(dtest,drop_vec),
  null_assign(dtest,drop_vec),
  subset(dtest, select = ! names(dtest) %in% drop_vec),
  subset(dtest, select = names(dtest)[! names(dtest) %in% drop_vec]),
  subset(dtest, select = -c(x, y) ),
times=5000)

plt <- ggplot2::qplot(y=time, data=res[res$time < 1000000,], colour=expr)
plt <- plt + ggplot2::scale_y_log10() + 
  ggplot2::labs(colour = "expression") + 
  ggplot2::scale_color_discrete(labels = c("re_assign", "null_assign", "subset_bool", "subset_names", "subset_drop")) +
  ggplot2::theme_bw(base_size=16)
print(plt)

dplyr패키지를 사용해 볼 수도 있습니다 .

R> df <- data.frame(x=1:5, y=2:6, z=3:7, u=4:8)
R> df
  x y z u
1 1 2 3 4
2 2 3 4 5
3 3 4 5 6
4 4 5 6 7
5 5 6 7 8
R> library(dplyr)
R> dplyr::select(df2, -c(x, y))  # remove columns x and y
  z u
1 3 4
2 4 5
3 5 6
4 6 7
5 7 8

여기에 대한 빠른 해결책이 있습니다. 예를 들어 열 A, B 및 C가 3 개인 데이터 프레임 X가 있다고 가정합니다.

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6))
> X
  A B C
1 1 3 5
2 2 4 6

B와 같은 열을 제거하려면 colnames에 grep을 사용하여 열 인덱스를 얻은 다음 열을 생략하는 데 사용할 수 있습니다.

> X<-X[,-grep("B",colnames(X))]

새 X 데이터 프레임은 다음과 같습니다 (이번에는 B 열 제외).

grep의 장점은 정규식과 일치하는 여러 열을 지정할 수 있다는 것입니다. 열이 5 개인 X가있는 경우 (A, B, C, D, E) :

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10

열 B와 D를 꺼내십시오.

> X<-X[,-grep("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

편집 : 아래 의견에서 Matthew Lundberg의 grepl 제안을 고려하십시오.

> X<-data.frame(A=c(1,2),B=c(3,4),C=c(5,6),D=c(7,8),E=c(9,10))
> X
  A B C D  E
1 1 3 5 7  9
2 2 4 6 8 10
> X<-X[,!grepl("B|D",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

존재하지 않는 열을 삭제하려고하면 아무 일도 일어나지 않아야합니다.

> X<-X[,!grepl("G",colnames(X))]
> X
  A C  E
1 1 5  9
2 2 6 10

패키지를 사용하는 동안 열을 삭제하려고했는데 data.table예기치 않은 결과가 발생했습니다. 다음 내용을 게시 할 가치가 있다고 생각합니다. 약간의주의 사항입니다.

[매튜에 의해 편집 ...]

DF = read.table(text = "
     fruit state grade y1980 y1990 y2000
     apples Ohio   aa    500   100   55
     apples Ohio   bb      0     0   44
     apples Ohio   cc    700     0   33
     apples Ohio   dd    300    50   66
", sep = "", header = TRUE, stringsAsFactors = FALSE)

DF[ , !names(DF) %in% c("grade")]   # all columns other than 'grade'
   fruit state y1980 y1990 y2000
1 apples  Ohio   500   100    55
2 apples  Ohio     0     0    44
3 apples  Ohio   700     0    33
4 apples  Ohio   300    50    66

library('data.table')
DT = as.data.table(DF)

DT[ , !names(dat4) %in% c("grade")]    # not expected !! not the same as DF !!
[1]  TRUE  TRUE FALSE  TRUE  TRUE  TRUE

DT[ , !names(DT) %in% c("grade"), with=FALSE]    # that's better
    fruit state y1980 y1990 y2000
1: apples  Ohio   500   100    55
2: apples  Ohio     0     0    44
3: apples  Ohio   700     0    33
4: apples  Ohio   300    50    66

기본적으로의 구문 data.table은와 정확히 동일하지 않습니다 data.frame. 실제로 많은 차이점이 있습니다 (FAQ 1.1 및 FAQ 2.17 참조). 경고를 받았습니다!

다른 사람들에게 도움이 될 수있는 또 다른 해결책이 있습니다. 아래 코드는 큰 데이터 세트에서 적은 수의 행과 열을 선택합니다. 붙여 넣기 기능을 사용하여 순차적으로 번호가 지정된 이름의 열 집합을 선택한다는 점을 제외하고 juba의 답변 중 하나에서 열이 선택됩니다.

df = read.table(text = "

state county city  region  mmatrix  X1 X2 X3    A1     A2     A3      B1     B2     B3      C1      C2      C3

  1      1     1      1     111010   1  0  0     2     20    200       4      8     12      NA      NA      NA
  1      2     1      1     111010   1  0  0     4     NA    400       5      9     NA      NA      NA      NA
  1      1     2      1     111010   1  0  0     6     60     NA      NA     10     14      NA      NA      NA
  1      2     2      1     111010   1  0  0    NA     80    800       7     11     15      NA      NA      NA

  1      1     3      2     111010   0  1  0     1      2      1       2      2      2      10      20      30
  1      2     3      2     111010   0  1  0     2     NA      1       2      2     NA      40      50      NA
  1      1     4      2     111010   0  1  0     1      1     NA      NA      2      2      70      80      90
  1      2     4      2     111010   0  1  0    NA      2      1       2      2     10     100     110     120

  1      1     1      3     010010   0  0  1    10     20     10     200    200    200       1       2       3
  1      2     1      3     001000   0  0  1    20     NA     10     200    200    200       4       5       9
  1      1     2      3     101000   0  0  1    10     10     NA     200    200    200       7       8      NA
  1      2     2      3     011010   0  0  1    NA     20     10     200    200    200      10      11      12

", sep = "", header = TRUE, stringsAsFactors = FALSE)
df

df2 <- df[df$region == 2, names(df) %in% c(paste("C", seq_along(1:3), sep=''))]
df2

#    C1  C2  C3
# 5  10  20  30
# 6  40  50  NA
# 7  70  80  90
# 8 100 110 120

df2 <- df[!names(df) %in% c("c1", "c2")]

코드를 다음과 같이 변경했습니다.

# read data
dat<-read.dta("file.dta")

# vars to delete
var.in<-c("iden", "name", "x_serv", "m_serv")

# what I'm keeping
var.out<-setdiff(names(dat),var.in)

# keep only the ones I want       
dat <- dat[var.out]

어쨌든 juba의 대답은 내 문제에 대한 최고의 해결책입니다!

평판 점수가 낮아서 의견에 귀하의 질문에 답변을 드릴 수 없습니다.

다음 코드는 paste 함수가 문자열을 반환하기 때문에 오류를 발생시킵니다

for(i in 1:length(var.out)) {
   paste("data$", var.out[i], sep="") <- NULL
}

가능한 해결책은 다음과 같습니다.

for(i in 1:length(var.out)) {

  text_to_source <- paste0 ("data$", var.out[i], "<- NULL") # Write a line of your
                                                  # code like a character string
  eval (parse (text=text_to_source)) # Source a text that contains a code
}

또는 그냥하십시오 :

for(i in 1:length(var.out)) {
  data[var.out[i]] <- NULL
}

참고 URL : https://stackoverflow.com/questions/5234117/how-to-drop-columns-by-name-in-a-data-frame

'Programing' 카테고리의 다른 글

GitHub 풀 요청을 수행하는 방법 (0)	2020.03.24
Git을 설치하지 않고`git diff` 패치를 적용하는 방법은 무엇입니까? (0)	2020.03.24
파이썬에서 왜 튜플 이해가 없는가? (0)	2020.03.24
파이썬에서 datetime.date를 UTC 타임 스탬프로 변환 (0)	2020.03.24
PHP는 클래스없이 객체를 생성한다 (0)	2020.03.24

현재글데이터 프레임에서 이름별로 열을 삭제하는 방법

복권의 역사, 로또 정보와 IT 기술 등을 다루는 블로그입니다.

c++, 관광, 무비순위, c#, 극장순위, JQuery, Javascript, 가족나들이, 뮤지컬, 볼거리, 놀거리, 자바, 축제, 연극, 여행, 공연, Spring3, java, spring, 행사,

Today :
Yesterday :

lottogame

데이터 프레임에서 이름별로 열을 삭제하는 방법

데이터 프레임에서 이름별로 열을 삭제하는 방법

'Programing' 카테고리의 다른 글

'Programing'의 다른글

티스토리툴바

« 2025/02 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

데이터 프레임에서 이름별로 열을 삭제하는 방법

데이터 프레임에서 이름별로 열을 삭제하는 방법

'Programing' 카테고리의 다른 글

'Programing'의 다른글

관련글

티스토리툴바