Programing

csv 파일의 한 열을 추출하는 방법

lottogame 2020. 8. 29. 11:50
반응형

csv 파일의 한 열을 추출하는 방법


csv 파일이있는 경우 단일 열의 내용 만 인쇄하는 빠른 bash 방법이 있습니까? 각 행에 동일한 수의 열이 있다고 가정하는 것이 안전하지만 각 열의 내용은 길이가 다릅니다.


이를 위해 awk를 사용할 수 있습니다. '$ 2'를 원하는 n 번째 열로 변경합니다.

awk -F "\"*,\"*" '{print $2}' textfile.csv

예. cat mycsv.csv | cut -d ',' -f3세 번째 열을 인쇄합니다.


이 작업을 수행 할 수있는 가장 간단한 방법은 csvtool을 사용하는 입니다. csvtool을 사용하는 다른 사용 사례도 있었으며 열 데이터 자체에 나타나는 경우 따옴표 또는 구분 기호를 적절하게 처리 할 수 ​​있습니다.

csvtool format '%(2)\n' input.csv

2를 열 번호로 바꾸면 찾고있는 열 데이터가 효과적으로 추출됩니다.


탭으로 구분 된 파일에서 추출하기 위해 여기에 도착했습니다. 내가 추가 할 것이라고 생각했다.

cat textfile.tsv | cut -f2 -s

여기서 -f20이 아닌 인덱스 열 또는 두 번째 열을 추출합니다.


이 질문에 대한 많은 답변은 훌륭하며 일부는 코너 케이스를 조사했습니다. 일상적으로 사용할 수있는 간단한 답변을 추가하고 싶습니다 ... 대부분 그 코너 케이스에 들어가는 경우 (예 : 쉼표 나 쉼표를 따옴표로 이스케이프 처리).

FS (Field Separator)는 값이 공백으로 손상되는 변수입니다. 따라서 기본적으로 awk는 모든 줄의 공간에서 분할됩니다.

따라서 BEGIN (입력하기 전에 실행)을 사용하여이 필드를 원하는대로 설정할 수 있습니다.

awk 'BEGIN {FS = ","}; {print $3}'

위의 코드는 csv 파일의 세 번째 열을 인쇄합니다.


다른 답변은 잘 작동하지만 bash 셸을 사용하여 솔루션을 요청했기 때문에 다음과 같이 할 수 있습니다.

AirBoxOmega:~ d$ cat > file #First we'll create a basic CSV
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10

그런 다음 다음과 같이 열 (이 예의 첫 번째)을 꺼낼 수 있습니다.

AirBoxOmega:~ d$ while IFS=, read -a csv_line;do echo "${csv_line[0]}";done < file
a
1
a
1
a
1
a
1
a
1
a
1

여기에 몇 가지 일이 있습니다.

  • while IFS=,-이것은 쉼표를 IFS (Internal Field Separator)로 사용하는 것입니다. 쉘이 필드 (텍스트 블록)를 구분하는 것을 알기 위해 사용하는 것입니다. 따라서 IFS =라고 말하는 것은 "a, b"가 "a b"와 동일하다고 말하는 것과 같습니다. IFS = ""(기본값) 인 경우입니다.

  • read -a csv_line; -이것은 한 번에 하나씩 각 줄을 읽고 각 요소를 "csv_line"이라고하는 배열을 만든 다음 while 루프의 "do"섹션으로 보냅니다.

  • do echo "${csv_line[0]}";done < file-이제 우리는 "do"단계에 있으며 "csv_line"배열의 0 번째 요소를 echo합니다. 이 작업은 파일의 모든 줄에서 반복됩니다. < file부분은 어디에서 읽을 수있는 while 루프를 말하고있다. 참고 : bash에서 배열은 인덱스가 0이므로 첫 번째 열은 0 번째 요소입니다.

그래서 거기에 쉘의 CSV에서 열을 가져옵니다. 다른 솔루션은 아마도 더 실용적 일 수 있지만 이것은 순수한 bash입니다.


GNU Awk를 사용할 수 있습니다 . 이 사용자 가이드 문서를 참조하십시오 . 기사 (2015 년 6 월)에 제시된 솔루션의 개선으로, 다음 gawk 명령은 큰 따옴표 필드 안에 큰 따옴표를 허용합니다. 큰 따옴표는 두 개의 연속적인 큰 따옴표 ( "")로 표시됩니다. 또한 이것은 빈 필드를 허용 하지만 이것조차도 여러 줄 필드를 처리 할 수 ​​없습니다 . 다음 예제 c=3는 textfile.csv 의 세 번째 열 (를 통해 )을 인쇄합니다 .

#!/bin/bash
gawk -- '
BEGIN{
    FPAT="([^,\"]*)|(\"((\"\")*[^\"]*)*\")"
}
{
    if (substr($c, 1, 1) == "\"") {
        $c = substr($c, 2, length($c) - 2) # Get the text within the two quotes
        gsub("\"\"", "\"", $c)  # Normalize double quotes
    }
    print $c
}
' c=3 < <(dos2unix <textfile.csv)

Note the use of dos2unix to convert possible DOS style line breaks (CRLF i.e. "\r\n") and UTF-16 encoding (with byte order mark) to "\n" and UTF-8 (without byte order mark), respectively. Standard CSV files use CRLF as line break, see Wikipedia.

If the input may contain multiline fields, you can use the following script. Note the use of special string for separating records in output (since the default separator newline could occur within a record). Again, the following example prints the 3rd column (via c=3) of textfile.csv:

#!/bin/bash
gawk -- '
BEGIN{
    RS="\0" # Read the whole input file as one record;
    # assume there is no null character in input.
    FS="" # Suppose this setting eases internal splitting work.
    ORS="\n####\n" # Use a special output separator to show borders of a record.
}
{
    nof=patsplit($0, a, /([^,"\n]*)|("(("")*[^"]*)*")/, seps)
    field=0;
    for (i=1; i<=nof; i++){
        field++
        if (field==c) {
            if (substr(a[i], 1, 1) == "\"") {
                a[i] = substr(a[i], 2, length(a[i]) - 2) # Get the text within 
                # the two quotes.
                gsub(/""/, "\"", a[i])  # Normalize double quotes.
            }
            print a[i]
        }
        if (seps[i]!=",") field=0
    }
}
' c=3 < <(dos2unix <textfile.csv)

There is another approach to the problem. csvquote can output contents of a CSV file modified so that special characters within field are transformed so that usual Unix text processing tools can be used to select certain column. For example the following code outputs the third column:

csvquote textfile.csv | cut -d ',' -f 3 | csvquote -u

csvquote can be used to process arbitrary large files.


[dumb@one pts]$ cat > file #First we'll create a basic CSV
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10
a,b,c,d,e,f,g,h,i,k
1,2,3,4,5,6,7,8,9,10

[dumb@one pts]$ awk -F , '{print $1}' file
a
1
a
1


I needed proper CSV parsing, not cut / awk and prayer. I'm trying this on a mac without csvtool, but macs do come with ruby, so you can do:

echo "require 'csv'; CSV.read('new.csv').each {|data| puts data[34]}" | ruby

csvtool col 2 file.csv 

where 2 is the column you are interested in

you can also do

csvtool col 1,2 file.csv 

to do multiple columns


You can't do it without a full CSV parser.


Here is a csv file example with 2 columns

myTooth.csv

Date,Tooth
2017-01-25,wisdom
2017-02-19,canine
2017-02-24,canine
2017-02-28,wisdom

To get the first column, use:

cut -d, -f1 myTooth.csv

f stands for Field and d stands for delimiter

Running the above command will produce the following output.

Output

Date
2017-01-25
2017-02-19
2017-02-24
2017-02-28

To get the 2nd column only:

cut -d, -f2 myTooth.csv

And here is the output Output

Tooth
wisdom
canine
canine
wisdom
incisor

Another use case:

Your csv input file contains 10 columns and you want columns 2 through 5 and columns 8, using comma as the separator".

cut uses -f (meaning "fields") to specify columns and -d (meaning "delimiter") to specify the separator. You need to specify the latter because some files may use spaces, tabs, or colons to separate columns.

cut -f 2-5,8 -d , myvalues.csv

cut is a command utility and here is some more examples:

SYNOPSIS
     cut -b list [-n] [file ...]
     cut -c list [file ...]
     cut -f list [-d delim] [-s] [file ...]

I wonder why none of the answers so far have mentioned csvkit.

csvkit is a suite of command-line tools for converting to and working with CSV

csvkit documentation

I use it exclusively for csv data management and so far I have not found a problem that I could not solve using cvskit.

To extract one or more columns from a cvs file you can use the csvcut utility that is part of the toolbox. To extract the second column use this command:

csvcut -c 2 filename_in.csv > filename_out.csv 

csvcut reference page

If the strings in the csv are quoted, add the quote character with the q option:

csvcut -q '"' -c 2 filename_in.csv > filename_out.csv 

Install with pip install csvkit or sudo apt install csvkit.


Been using this code for a while, it is not "quick" unless you count "cutting and pasting from stackoverflow".

IFS 대신 루프에서 $ {##} 및 $ {%%} 연산자를 사용합니다. 그것은 'err'과 'die'를 호출하고 SEP 문자로 쉼표, 대시 및 파이프 만 지원합니다 (그게 내가 필요한 전부입니다).

err()  { echo "${0##*/}: Error:" "$@" >&2; }
die()  { err "$@"; exit 1; }

# Return Nth field in a csv string, fields numbered starting with 1
csv_fldN() { fldN , "$1" "$2"; }

# Return Nth field in string of fields separated
# by SEP, fields numbered starting with 1
fldN() {
        local me="fldN: "
        local sep="$1"
        local fldnum="$2"
        local vals="$3"
        case "$sep" in
                -|,|\|) ;;
                *) die "$me: arg1 sep: unsupported separator '$sep'" ;;
        esac
        case "$fldnum" in
                [0-9]*) [ "$fldnum" -gt 0 ] || { err "$me: arg2 fldnum=$fldnum must be number greater or equal to 0."; return 1; } ;;
                *) { err "$me: arg2 fldnum=$fldnum must be number"; return 1;} ;;
        esac
        [ -z "$vals" ] && err "$me: missing arg2 vals: list of '$sep' separated values" && return 1
        fldnum=$(($fldnum - 1))
        while [ $fldnum -gt 0 ] ; do
                vals="${vals#*$sep}"
                fldnum=$(($fldnum - 1))
        done
        echo ${vals%%$sep*}
}

예:

$ CSVLINE="example,fields with whitespace,field3"
$ $ for fno in $(seq 3); do echo field$fno: $(csv_fldN $fno "$CSVLINE");  done
field1: example
field2: fields with whitespace
field3: field3

while 루프를 사용할 수도 있습니다.

IFS=,
while read name val; do
        echo "............................"

        echo Name: "$name"
done<itemlst.csv

가장 쉬운 방법은 csvkit을 사용하는 것입니다 .

두 번째 열을 가져옵니다. csvcut -c 2 file.csv

그러나 csvtool 및 기타 여러 csv bash 도구도 있습니다.

sudo apt-get install csvtool (Debian 기반 시스템의 경우)

그러면 첫 번째 행에 'ID'가있는 열이 반환됩니다. csvtool namedcol ID csv_file.csv

이것은 네 번째 행을 반환합니다. csvtool col 4 csv_file.csv

헤더 행을 삭제하려는 경우 :

csvtool col 4 csv_file.csv | sed '1d'

참고 URL : https://stackoverflow.com/questions/19602181/how-to-extract-one-column-of-a-csv-file

반응형