파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

Programing

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

lottogame 2020. 2. 27. 22:04

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

문자열에 포함 된 모든 숫자를 추출합니다. 목적, 정규식 또는 isdigit()방법에 더 적합한 것은 무엇입니까?

예:

line = "hello 12 hi 89"

결과:

[12, 89]

양의 정수만 추출하려면 다음을 시도하십시오.

>>> str = "h3110 23 cat 444.4 rabbit 11 2 dog"
>>> [int(s) for s in str.split() if s.isdigit()]
[23, 11, 2]

나는 이것이 세 가지 이유로 정규식 예제보다 낫다고 주장합니다. 첫째, 다른 모듈이 필요하지 않습니다. 둘째, 정규식 미니 언어를 구문 분석 할 필요가 없기 때문에 더 읽기 쉽습니다. 셋째, 더 빠릅니다 (따라서 더 많은 파이썬) :

python -m timeit -s "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "[s for s in str.split() if s.isdigit()]"
100 loops, best of 3: 2.84 msec per loop

python -m timeit -s "import re" "str = 'h3110 23 cat 444.4 rabbit 11 2 dog' * 1000" "re.findall('\\b\\d+\\b', str)"
100 loops, best of 3: 5.66 msec per loop

부동 소수점, 음의 정수 또는 16 진 형식의 정수는 인식하지 않습니다. 이러한 제한을 받아 들일 수 없다면 아래의 슬림 한 대답 이 그 트릭을 수행 할 것입니다.

정규 표현식을 사용합니다.

>>> import re
>>> re.findall(r'\d+', 'hello 42 I\'m a 32 string 30')
['42', '32', '30']

또한의 42와 일치 bla42bla합니다. 단어 경계 (공백, 마침표, 쉼표)로 구분 된 숫자 만 원하는 경우 \ b를 사용할 수 있습니다.

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')
['42', '32', '30']

문자열 목록 대신 숫자 목록으로 끝내려면 :

>>> [int(s) for s in re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string 30')]
[42, 32, 30]

이것은 조금 늦었지만 과학적 표기법을 설명하기 위해 정규 표현식을 확장 할 수 있습니다.

import re

# Format is [(<string>, <expected output>), ...]
ss = [("apple-12.34 ba33na fanc-14.23e-2yapple+45e5+67.56E+3",
       ['-12.34', '33', '-14.23e-2', '+45e5', '+67.56E+3']),
      ('hello X42 I\'m a Y-32.35 string Z30',
       ['42', '-32.35', '30']),
      ('he33llo 42 I\'m a 32 string -30', 
       ['33', '42', '32', '-30']),
      ('h3110 23 cat 444.4 rabbit 11 2 dog', 
       ['3110', '23', '444.4', '11', '2']),
      ('hello 12 hi 89', 
       ['12', '89']),
      ('4', 
       ['4']),
      ('I like 74,600 commas not,500', 
       ['74,600', '500']),
      ('I like bad math 1+2=.001', 
       ['1', '+2', '.001'])]

for s, r in ss:
    rr = re.findall("[-+]?[.]?[\d]+(?:,\d\d\d)*[\.]?\d*(?:[eE][-+]?\d+)?", s)
    if rr == r:
        print('GOOD')
    else:
        print('WRONG', rr, 'should be', r)

모든 좋은 것을 제공합니다!

또한 AWS Glue 내장 정규식을 볼 수 있습니다

정수가 아닌 부동 소수점을 원한다고 가정하므로 다음과 같이하십시오.

l = []
for t in s.split():
    try:
        l.append(float(t))
    except ValueError:
        pass

여기에 게시 된 다른 솔루션 중 일부는 음수로 작동하지 않습니다.

>>> re.findall(r'\b\d+\b', 'he33llo 42 I\'m a 32 string -30')
['42', '32', '30']

>>> '-3'.isdigit()
False

문자열에서 하나의 숫자 만 알고 있다면 (예 : 'hello 12 hi') 필터를 사용해 볼 수 있습니다.

예를 들면 다음과 같습니다.

In [1]: int(''.join(filter(str.isdigit, '200 grams')))
Out[1]: 200
In [2]: int(''.join(filter(str.isdigit, 'Counters: 55')))
Out[2]: 55
In [3]: int(''.join(filter(str.isdigit, 'more than 23 times')))
Out[3]: 23

그러나 조심하십시오! :

In [4]: int(''.join(filter(str.isdigit, '200 grams 5')))
Out[4]: 2005

# extract numbers from garbage string:
s = '12//n,_@#$%3.14kjlw0xdadfackvj1.6e-19&*ghn334'
newstr = ''.join((ch if ch in '0123456789.-e' else ' ') for ch in s)
listOfNumbers = [float(i) for i in newstr.split()]
print(listOfNumbers)
[12.0, 3.14, 0.0, 1.6e-19, 334.0]

브라질 전화 번호에서 문자열 마스크를 제거하는 솔루션을 찾고 있었는데이 게시물은 대답하지 않았지만 영감을 얻었습니다. 이것은 내 솔루션입니다.

>>> phone_number = '+55(11)8715-9877'
>>> ''.join([n for n in phone_number if n.isdigit()])
'551187159877'

이 답변에는 숫자가 문자열에 떠있는 경우도 포함됩니다.

def get_first_nbr_from_str(input_str):
    '''
    :param input_str: strings that contains digit and words
    :return: the number extracted from the input_str
    demo:
    'ab324.23.123xyz': 324.23
    '.5abc44': 0.5
    '''
    if not input_str and not isinstance(input_str, str):
        return 0
    out_number = ''
    for ele in input_str:
        if (ele == '.' and '.' not in out_number) or ele.isdigit():
            out_number += ele
        elif out_number:
            break
    return float(out_number)

아래 정규식을 사용하는 방법입니다

lines = "hello 12 hi 89"
import re
output = []
line = lines.split()
for word in line:
        match = re.search(r'\d+.?\d*', word)
        if match:
            output.append(float(match.group()))
print (output)

아무도 itertools.groupby이것을 달성하기위한 대안으로 사용을 언급하지 않았다는 사실에 놀랐습니다 .

문자열에서 숫자를 추출하기 위해 itertools.groupby()함께 사용할 수 있습니다 str.isdigit().

from itertools import groupby
my_str = "hello 12 hi 89"

l = [int(''.join(i)) for is_digit, i in groupby(my_str, str.isdigit) if is_digit]

보유 가치 l는 다음과 같습니다.

[12, 89]

추신 : 이것은 단지 대안으로 우리가 groupby이것을 달성하기 위해 사용할 수 있음을 보여주기위한 설명 을위한 것입니다. 그러나 이것은 권장되는 솔루션이 아닙니다. 이를 달성하려면 목록 이해를 필터 로 사용하여 허용 된 fmark 응답을 사용해야str.isdigit 합니다.

이 중 어느 것도 내가 찾아야 할 Excel 및 Word 문서에서 실제 재무 수치를 다루지 않았으므로 여기 내 변형이 있습니다. 정수, 부동 소수점, 음수, 통화 번호 (분할시 응답하지 않기 때문에)를 처리하고 소수 부분을 삭제하고 정수를 반환하거나 모든 것을 반환하는 옵션이 있습니다.

또한 3 자리 숫자가 아닌 쉼표가 불규칙적으로 나타나는 Indian Laks 번호 시스템도 처리합니다.

예산 내 괄호 안에 넣은 과학적 표기법이나 음수를 처리하지 않습니다. 양수로 나타납니다.

또한 날짜를 추출하지 않습니다. 문자열에서 날짜를 찾는 더 좋은 방법이 있습니다.

import re
def find_numbers(string, ints=True):            
    numexp = re.compile(r'[-]?\d[\d,]*[\.]?[\d{2}]*') #optional - in front
    numbers = numexp.findall(string)    
    numbers = [x.replace(',','') for x in numbers]
    if ints is True:
        return [int(x.replace(',','').split('.')[0]) for x in numbers]            
    else:
        return numbers

아무도 예외 처리를 사용하여 아무도 추가하지 않았기 때문에이 답변을 추가하고 있습니다.

a = []
line = "abcd 1234 efgh 56.78 ij"
for word in line.split():
    try:
        a.append(float(word))
    except ValueError:
        pass
print(a)

출력 :

[1234.0, 56.78]

@ jmnas, 나는 당신의 대답을 좋아했지만 수레를 찾지 못했습니다. CNC 밀로가는 코드를 구문 분석하는 스크립트를 작성 중이며 정수 또는 부동 소수점 일 수있는 X 및 Y 차원을 모두 찾아야하므로 코드를 다음과 같이 조정했습니다. 이것은 int를 찾고 양수와 음수로 플로트합니다. 여전히 16 진수 형식의 값을 찾지 못하지만 num_char튜플 에 "x"와 "A"를 통해 "F"를 추가 할 수 있으며 '0x23AC'와 같은 것을 구문 분석 할 것이라고 생각합니다.

s = 'hello X42 I\'m a Y-32.35 string Z30'
xy = ("X", "Y")
num_char = (".", "+", "-")

l = []

tokens = s.split()
for token in tokens:

    if token.startswith(xy):
        num = ""
        for char in token:
            # print(char)
            if char.isdigit() or (char in num_char):
                num = num + char

        try:
            l.append(float(num))
        except ValueError:
            pass

print(l)

내가 찾은 가장 좋은 옵션은 다음과 같습니다. 숫자를 추출하여 모든 유형의 문자를 제거 할 수 있습니다.

def extract_nbr(input_str):
    if input_str is None or input_str == '':
        return 0

    out_number = ''
    for ele in input_str:
        if ele.isdigit():
            out_number += ele
    return float(out_number)

line2 = "hello 12 hi 89"
temp1 = re.findall(r'\d+', line2) # through regular expression
res2 = list(map(int, temp1))
print(res2)

안녕하세요 ,

findall expression을 사용하여 숫자를 통해 문자열의 모든 정수를 검색 할 수 있습니다.

두 번째 단계에서 res2 목록을 작성하고 문자열에서 찾은 숫자를이 목록에 추가하십시오.

도움이 되었기를 바랍니다

감사합니다. Diwakar Sharma

참고 URL : https://stackoverflow.com/questions/4289331/how-to-extract-numbers-from-a-string-in-python

'Programing' 카테고리의 다른 글

스프링 : @Component 대 @Bean (0)	2020.02.27
Bash의 삼항 연산자 (? :) (0)	2020.02.27
스위프트의 정밀 문자열 형식 지정자 (0)	2020.02.27
WCF와 ASMX 웹 서비스의 차이점은 무엇입니까? (0)	2020.02.27
SQLAlchemy : flush ()와 commit ()의 차이점은 무엇입니까? (0)	2020.02.27

현재글파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

lottogame 복권의 역사, 로또 정보와 IT 기술 등을 다루는 블로그입니다.

복권의 역사, 로또 정보와 IT 기술 등을 다루는 블로그입니다.

c#, 가족나들이, 공연, 자바, JQuery, 극장순위, 행사, 관광, java, 무비순위, 연극, 여행, 축제, 뮤지컬, 놀거리, Spring3, Javascript, 볼거리, spring, c++,

Today :
Yesterday :

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

lottogame

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

'Programing' 카테고리의 다른 글

'Programing'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

2025. 03
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

파이썬에서 문자열에서 숫자를 추출하는 방법은 무엇입니까?

'Programing' 카테고리의 다른 글

'Programing'의 다른글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역