Python 복잡한 리스트 필터링: filter vs 리스트 컴프리헨션, 무엇이 더 나을까?

데이터 전처리나 리스트에서 특정 조건에 맞는 요소를 추출하는 작업은 Python에서 자주 필요한 작업 중 하나입니다. 이런 경우, filter() 함수와 리스트 컴프리헨션(List Comprehension)을 사용할 수 있습니다. 하지만 둘 중 어떤 방법이 더 적합할까요? 이번 글에서는 두 방법을 비교하며 실제 데이터 처리에서 유용한 코드 예제와 함께 이해하기 쉽게 설명하겠습니다.


1. filter와 리스트 컴프리헨션의 기본 개념

filter() 함수

  • filter() 함수는 조건에 맞는 요소만 걸러내는 내장 함수입니다.
  • 첫 번째 인자로 필터링 조건을 정의하는 함수, 두 번째 인자로 필터링 대상 데이터를 받습니다.
  • 결과는 이터레이터 형태로 반환됩니다.
nums = [1, 2, 3, 4, 5]
filtered = filter(lambda x: x % 2 == 0, nums)  # 짝수만 필터링
print(list(filtered))  # [2, 4]

리스트 컴프리헨션

  • 리스트 컴프리헨션은 리스트를 생성하면서 특정 조건에 맞는 요소만 포함할 수 있습니다.
  • 더 간결한 구문으로 조건을 표현할 수 있습니다.
nums = [1, 2, 3, 4, 5]
filtered = [x for x in nums if x % 2 == 0]  # 짝수만 필터링
print(filtered)  # [2, 4]

2. 실제 데이터 처리에서 두 방법 비교

상황: 딥러닝 데이터 전처리

문제: 딥러닝 모델을 학습시키기 전에, 결측값이 있는 데이터를 제거하고, 입력 크기를 기준으로 데이터 필터링을 진행해야 합니다.

filter 사용

# 데이터 예시
data = [
    {"id": 1, "input": [0.1, 0.2], "label": 1},
    {"id": 2, "input": [0.3, None], "label": 0},
    {"id": 3, "input": [0.5, 0.7], "label": 1},
]

# 결측값이 없는 데이터만 필터링
def is_valid(sample):
    return None not in sample["input"]

filtered_data = filter(is_valid, data)
print(list(filtered_data))

결과

[{'id': 1, 'input': [0.1, 0.2], 'label': 1}, {'id': 3, 'input': [0.5, 0.7], 'label': 1}]

리스트 컴프리헨션 사용

# 결측값이 없는 데이터만 필터링
filtered_data = [sample for sample in data if None not in sample["input"]]
print(filtered_data)

결과

[{'id': 1, 'input': [0.1, 0.2], 'label': 1}, {'id': 3, 'input': [0.5, 0.7], 'label': 1}]

비교

  • 가독성: 리스트 컴프리헨션은 코드가 더 짧고 명확합니다.
  • 함수 재사용성: filteris_valid와 같은 함수를 정의하여 조건을 독립적으로 관리할 수 있어 재사용성이 높습니다.

3. 성능 비교: 언제 무엇을 써야 할까?

리스트 크기가 클 때

filter와 리스트 컴프리헨션 모두 큰 리스트를 처리할 수 있지만, filter는 지연 평가(Lazy Evaluation)를 사용해 조건에 맞는 요소를 하나씩 처리합니다. 반면, 리스트 컴프리헨션은 한 번에 모든 데이터를 처리하여 새 리스트를 생성합니다.

예제: 메모리 효율 테스트

import sys

nums = range(1, 1000000)  # 100만 개의 숫자
filtered_with_filter = filter(lambda x: x % 2 == 0, nums)
filtered_with_comprehension = [x for x in nums if x % 2 == 0]

print(sys.getsizeof(filtered_with_filter))  # 매우 작은 크기 (이터레이터)
print(sys.getsizeof(filtered_with_comprehension))  # 메모리 크기가 커짐 (리스트)

결과

112
84488

메모리 효율이 중요한 경우

  • filter는 이터레이터를 반환하기 때문에 메모리를 덜 사용합니다.
  • 리스트 컴프리헨션은 새로운 리스트를 생성하므로 더 많은 메모리를 사용합니다.

4. 복잡한 조건 필터링: 다중 조건 적용하기

상황: 딥러닝 라벨 기준으로 데이터 필터링

라벨이 1이고, 입력 데이터의 길이가 2 이상인 샘플만 필터링합니다.

filter 사용

# 다중 조건을 적용한 필터링 함수
def is_valid(sample):
    return sample["label"] == 1 and len(sample["input"]) >= 2

filtered_data = filter(is_valid, data)
print(list(filtered_data))

결과

[{'id': 1, 'input': [0.1, 0.2], 'label': 1}, {'id': 3, 'input': [0.5, 0.7], 'label': 1}]

리스트 컴프리헨션 사용

filtered_data = [
    sample for sample in data 
    if sample["label"] == 1 and len(sample["input"]) >= 2
]
print(filtered_data)

결과

[{'id': 1, 'input': [0.1, 0.2], 'label': 1}, {'id': 3, 'input': [0.5, 0.7], 'label': 1}]

비교

  • 가독성: 리스트 컴프리헨션은 조건을 함수로 분리하지 않아 간단한 조건에서는 더 직관적입니다.
  • 유연성: filter는 조건을 함수로 정의하므로 조건이 복잡할 경우 유지보수가 쉬워집니다.

5. 결론: 언제 어떤 방법을 사용할까?

filter를 사용하는 경우

  • 조건을 함수로 정의하여 재사용성과 확장성을 높이고 싶을 때
  • 메모리 사용량을 최소화해야 할 때 (지연 평가 덕분에 큰 데이터를 처리할 때 유리)

리스트 컴프리헨션을 사용하는 경우

  • 필터링 조건이 간단하고 가독성이 중요한 경우
  • 한 번에 처리할 데이터 크기가 크지 않고, 리스트 생성이 필요한 경우

요약: filter vs 리스트 컴프리헨션

특성 filter 리스트 컴프리헨션
가독성 함수 기반으로 조건 분리, 유지보수 용이 간결한 구문으로 직관적 표현 가능
메모리 사용 지연 평가로 메모리 효율적 새 리스트 생성으로 메모리 사용 증가
조건의 복잡성 복잡한 조건에서 함수로 표현 가능 간단한 조건에 적합
속도 큰 차이 없음 (조건에 따라 다름) 큰 리스트의 경우 메모리 부담 발생 가능

filter와 리스트 컴프리헨션 모두 각각의 장점이 있으므로, 데이터 크기와 조건의 복잡성을 고려해 상황에 맞게 선택하세요! 🎯

Python 리스트 컴프리헨션과 메모리 절약: 더 빠르고 효율적인 코드 작성법

Python의 리스트 컴프리헨션(list comprehension)은 짧고 간결하게 리스트를 생성할 수 있는 문법입니다. 반복문과 조건문을 결합해 하나의 줄로 리스트를 생성하면서, 메모리를 절약할 수 있는 방법도 제공합니다. 이번 글에서는 리스트 컴프리헨션의 기본 개념과, 메모리 사용을 최소화하면서 효율적으로 코드를 작성할 수 있는 활용법을 설명합니다.


1. 리스트 컴프리헨션이란?

리스트 컴프리헨션은 하나의 표현식으로 리스트를 생성할 수 있는 Python의 특별한 문법입니다. 일반적인 for 반복문으로 리스트를 작성하는 방법보다 간결하고 읽기 쉽습니다.

기본 구조

리스트 컴프리헨션의 기본 구조는 다음과 같습니다:

[표현식 for 요소 in 반복 가능한 객체 if 조건]

위 구조에서, if 조건옵션으로 사용할 수 있는 필터입니다. 이 조건에 맞는 요소만 리스트에 포함됩니다.


2. 기본 예제: 리스트 컴프리헨션을 활용한 간결한 리스트 생성

다음은 for 반복문을 사용한 코드와 동일한 작업을 리스트 컴프리헨션으로 간단하게 작성한 예제입니다.

# 기존 방식
numbers = []
for i in range(10):
    if i % 2 == 0:
        numbers.append(i)

print(numbers)  # [0, 2, 4, 6, 8]

# 리스트 컴프리헨션 사용
numbers = [i for i in range(10) if i % 2 == 0]
print(numbers)  # [0, 2, 4, 6, 8]

결과

[0, 2, 4, 6, 8]

설명

  • 기존 방식에서는 for 반복문과 if 조건을 사용해 짝수를 골라내 리스트에 추가해야 했습니다.
  • 리스트 컴프리헨션을 사용하면 하나의 줄로 같은 결과를 얻을 수 있습니다. 간결하고, 읽기 쉬운 코드가 됩니다.

3. 메모리 절약하기: 제너레이터 표현식 사용

리스트 컴프리헨션은 메모리를 많이 사용하는 큰 리스트를 만들 때 부담이 될 수 있습니다. 이때는 제너레이터 표현식(generator expression)을 사용하여 메모리를 절약할 수 있습니다. 제너레이터는 모든 값을 한꺼번에 생성하지 않고 필요할 때마다 값을 생성하여 메모리 사용을 최소화합니다.

# 리스트 컴프리헨션 - 메모리 많이 사용
squares_list = [i * i for i in range(1000000)]

# 제너레이터 표현식 - 메모리 절약
squares_gen = (i * i for i in range(1000000))

print(sum(squares_list))  # 리스트 전체를 메모리에 올리므로 메모리 많이 사용
print(sum(squares_gen))   # 필요할 때마다 값을 생성하여 메모리 절약

설명

  • [i * i for i in range(1000000)]는 리스트 컴프리헨션으로 모든 제곱 값을 메모리에 저장합니다.
  • (i * i for i in range(1000000))는 제너레이터 표현식으로 값을 필요할 때마다 생성하므로 메모리 사용을 줄일 수 있습니다.
  • 큰 데이터나 무한 시퀀스를 처리할 때 제너레이터 표현식을 사용하면 메모리 부담 없이 작업을 수행할 수 있습니다.

4. 조건부 리스트 컴프리헨션으로 필터링 작업 단순화하기

리스트 컴프리헨션의 if 조건을 활용하면 필터링 작업을 간단하게 수행할 수 있습니다. 조건에 맞는 요소만 포함하도록 리스트를 생성해보겠습니다.

# 기존 방식
filtered_numbers = []
for i in range(20):
    if i % 3 == 0:
        filtered_numbers.append(i)

print(filtered_numbers)  # [0, 3, 6, 9, 12, 15, 18]

# 리스트 컴프리헨션 사용
filtered_numbers = [i for i in range(20) if i % 3 == 0]
print(filtered_numbers)  # [0, 3, 6, 9, 12, 15, 18]

결과

[0, 3, 6, 9, 12, 15, 18]

설명

  • if 조건을 사용하면 조건에 맞는 요소만 리스트에 추가할 수 있습니다.
  • 필터링 작업이 간단해지고, 코드를 읽는 사람도 조건이 무엇인지 쉽게 이해할 수 있어 가독성이 높아집니다.

5. 리스트 컴프리헨션으로 중첩 반복문 처리하기

중첩 반복문이 필요할 때도 리스트 컴프리헨션을 사용하면 코드를 훨씬 짧고 간결하게 만들 수 있습니다.

# 기존 방식
pairs = []
for i in range(3):
    for j in range(3):
        pairs.append((i, j))

print(pairs)  # [(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]

# 리스트 컴프리헨션 사용
pairs = [(i, j) for i in range(3) for j in range(3)]
print(pairs)  # [(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]

결과

[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]

설명

  • 리스트 컴프리헨션을 사용하면 중첩 반복문을 간결하게 표현할 수 있습니다.
  • (i, j) for i in range(3) for j in range(3)ij의 모든 조합을 리스트로 만듭니다. 코드가 짧아지고, 반복문이 한 줄로 정리되어 가독성이 높아집니다.

6. 조건문을 이용해 값 변환과 필터링을 동시에 수행하기

리스트 컴프리헨션은 조건에 따라 값을 변환하면서 리스트를 만들 수 있어, 코드가 간단해지고 실행 속도가 빨라집니다.

# 짝수는 그대로, 홀수는 제곱하여 리스트에 추가
numbers = [i if i % 2 == 0 else i * i for i in range(10)]
print(numbers)  # [0, 1, 2, 9, 4, 25, 6, 49, 8, 81]

결과

[0, 1, 2, 9, 4, 25, 6, 49, 8, 81]

설명

  • i if i % 2 == 0 else i * i는 짝수는 그대로 추가하고, 홀수는 제곱하여 리스트에 추가합니다.
  • 리스트 컴프리헨션을 사용하면 조건에 맞는 값을 쉽게 변환할 수 있어 필터링과 값 변환 작업을 동시에 수행할 수 있습니다.

7. 다중 조건을 사용해 복잡한 필터링 수행하기

리스트 컴프리헨션에서 if 조건을 여러 개 사용할 수 있어 다중 조건 필터링을 간단히 처리할 수 있습니다.

# 3의 배수이면서 짝수인 수만 리스트에 포함
numbers = [i for i in range(30) if i % 3 == 0 if i % 2 == 0]
print(numbers)  # [0, 6, 12, 18, 24]

결과

[0, 6, 12, 18, 24]

설명

  • if i % 3 == 0 if i % 2 == 03의 배수이면서 짝수인 조건을 만족하는 값을 필터링합니다.
  • 다중 조건을 사용할 수 있어, 복잡한 조건이 필요한 필터링 작업도 한 줄로 간단하게 작성할 수 있습니다.

요약: 리스트 컴프리헨션과 메모리 절약

Python의 리스트 컴프리헨션은 간결하게 리스트를 생성하면서도 복잡한 조건을 적용하거나 필터링 작업을 수행할 수 있어 코드 가독성이 높아집니다. 또한, 메모리를 효율적으로 사용하는 제너레이터 표현식을 통해 대용량 데이터를 다룰 때도 부담을 줄일 수 있습니다.

리스트 컴프리헨션의 장점은 다음과 같습니다:

  1. 간결한 코드 작성: 반복문과 조건문을 하나의 표현식으로 작성하여 코드가 짧아지고 가독성이 높아집니다.
  2. 메모리 절약: 제너레이터 표현식을 사용하여 큰 데이터를 메모리에 부담 없이 다룰 수 있습니다.
  3. 필터링과 변환의 동시 수행: 조건문을 통해 데이터를 필터링하거나 변환하는 작업을 한 줄로 작성할 수 있습니다.

리스트 컴프리헨션과 제너레이터 표현식을 활용해 더 효율적이고 빠른 Python 코드를 작성해보세요!

+ Recent posts