Take only letters from string elements

Question

I have a long list like this: A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23']

How can I get only the letters part without numbers and make them another list?

chrisaycock · Accepted Answer · 2015-05-14 22:20:30Z

3

>>> [''.join([l for l in x if l.isalpha()]) for x in xs]
['ABCd', 'Efhgh', 'dhAsadjkhdk']

answered May 14, 2015 at 22:20

chrisaycock

38.1k15 gold badges94 silver badges128 bronze badges

Sign up to request clarification or add additional context in comments.

1 Comment

Shashank Over a year ago

You don't need to make an intermediate list, str.join works on any iterable.

Shashank · Accepted Answer · 2015-05-14 22:35:42Z

2

Using re.sub, this is quite simple!

>>> strings = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23']
>>> import re
>>> [re.sub(r'[^A-Za-z]+', '', s) for s in strings]
['ABCd', 'Efhgh', 'dhAsadjkhdk']

Want the numbers too?

>>> [re.sub(r'[^\d]+', '', s) for s in strings]
['123', '345', '23']

answered May 14, 2015 at 22:35

Shashank

13.9k5 gold badges39 silver badges63 bronze badges

1 Comment

Malik Brahimi Over a year ago

Much better than flattening the list of matches. +1

TigerhawkT3 · Accepted Answer · 2015-05-15 14:35:53Z

2

>>> A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23']
>>> B = list(map(lambda x: ''.join([letter for letter in x if letter.isalpha()]), A))
>>> B
['ABCd', 'Efhgh', 'dhAsadjkhdk']

filter() would have been a better choice than map():

>>> A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23']
>>> B = [''.join(filter(str.isalpha, a)) for a in A]
>>> B
['ABCd', 'Efhgh', 'dhAsadjkhdk']

This, of course, is basically identical to @chrisaycock's answer.

If you'd like to eliminate duplicate entries, use a set:

>>> A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23', 'ABCd 95']
>>> B = set(''.join(filter(str.isalpha, a)) for a in A)
>>> B
{'Efhgh', 'dhAsadjkhdk', 'ABCd'}

If you'd like to eliminate duplicate entries but you need to preserve the ordering of the original list, sort a set by index:

>>> A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23', 'ABCd 95']
>>> B = [''.join(filter(str.isalpha, a)) for a in A]
>>> B
['ABCd', 'Efhgh', 'dhAsadjkhdk', 'ABCd']
>>> C = sorted(set(B), key=lambda x: B.index(x))
>>> C
['ABCd', 'Efhgh', 'dhAsadjkhdk']

or avoid an intermediate list and set by doing it manually:

>>> A = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23', 'ABCd 95']
>>> B = []
>>> for a in A:
...     b = ''.join(filter(str.isalpha, a))
...     if b not in B:
...             B.append(b)
...
>>> B
['ABCd', 'Efhgh', 'dhAsadjkhdk']

edited May 15, 2015 at 14:35

answered May 14, 2015 at 22:18

TigerhawkT3

49.4k6 gold badges65 silver badges101 bronze badges

3 Comments

Shashank Over a year ago

Your solution is better than chrisaycock's answer, if only for the simple reason that in Python 3.x, filter returns an iterator instead of a string. (He's using an intermediate list instead of a generator) In Python 2.x, the advantage is pure elegance, you can simply do filter(str.isalpha, s) and it will automatically return a string without you having to join because filter does a smart type-check.

kristofagotaa Over a year ago

Thank you @TigerhawkT3, I think I will use this. But after that, I need only one string if there's the same word of it. Like, I need only 'ABCd' but there is 5 'ABCd' element in the B list that you wrote actually.

TigerhawkT3 Over a year ago

I've updated my answer to include solutions for removing duplicates, with and without preserving the original list's order.

Open AI - Opting Out · Accepted Answer · 2015-05-14 22:22:42Z

0

>>> values = ['ABCd 123', 'Efhgh 345', 'dhAsadjkhdk 23']

>>> [value.split()[0] for value in values]
['ABCd', 'Efhgh', 'dhAsadjkhdk']

answered May 14, 2015 at 22:22

Open AI - Opting Out

24.3k7 gold badges66 silver badges102 bronze badges

2 Comments

TigerhawkT3 Over a year ago

This assumes a certain structure which hasn't been mentioned or confirmed and may be coincidental.

Open AI - Opting Out Over a year ago

@TigerhawkT3 need more test cases.

Malik Brahimi · Accepted Answer · 2015-05-14 22:25:24Z

0

Use regular expressions to search for the groups of letters in the list:

words = map(lambda s: re.findall(r'[a-zA-Z]+', s), A)
words = list(itertools.chain.from_iterable(words))

answered May 14, 2015 at 22:25

Malik Brahimi

16.8k7 gold badges47 silver badges76 bronze badges

Collectives™ on Stack Overflow

Take only letters from string elements

5 Answers 5

1 Comment

1 Comment

3 Comments

2 Comments

Comments

Your Answer

Hot Network Questions

Collectives™ on Stack Overflow

5 Answers 5

1 Comment

1 Comment

3 Comments

2 Comments

Comments

Your Answer

Sign up or log in

Post as a guest

Related