코딩테스트/백준

[백준 20920] 영단어 암기는 괴로워

starcat37 2023. 8. 18. 15:10

1. 링크

https://www.acmicpc.net/problem/20920

2. 문제 설명

(1) 문제

화은이는 이번 영어 시험에서 틀린 문제를 바탕으로 영어 단어 암기를 하려고 한다. 그 과정에서 효율적으로 영어 단어를 외우기 위해 영어 단어장을 만들려 하고 있다. 화은이가 만들고자 하는 단어장의 단어 순서는 다음과 같은 우선순위를 차례로 적용하여 만들어진다.

  1. 자주 나오는 단어일수록 앞에 배치한다.
  2. 해당 단어의 길이가 길수록 앞에 배치한다.
  3. 알파벳 사전 순으로 앞에 있는 단어일수록 앞에 배치한다

보다 짧은 길이의 단어의 경우 읽는 것만으로도 외울 수 있기 때문에 길이가 이상인 단어들만 외운다고 한다. 화은이가 괴로운 영단어 암기를 효율적으로 할 수 있도록 단어장을 만들어 주자.

 

(2) 입력

첫째 줄에는 영어 지문에 나오는 단어의 개수 과 외울 단어의 길이 기준이 되는 이 공백으로 구분되어 주어진다. (1≤N≤100000, 1≤M≤10)

둘째 줄부터 번째 줄까지 외울 단어를 입력받는다. 이때의 입력은 알파벳 소문자로만 주어지며 단어의 길이는 10을 넘지 않는다.

단어장에 단어가 반드시 1개 이상 존재하는 입력만 주어진다.

(3) 출력

화은이의 단어장에 들어 있는 단어를 단어장의 앞에 위치한 단어부터 한 줄에 한 단어씩 순서대로 출력한다.


 

3. 코드

# 20920

import sys

# 입력 받기
N, M = map(int, sys.stdin.readline().rstrip().split(" "))
words = {}
for _ in range(N):
    word = sys.stdin.readline().rstrip()
    if len(word) >= M:
        if word in words.keys():
            words[word] += 1
        else:
            words[word] = 1

# 단어장 만들기
voca_list = sorted(words.items(), key= lambda x: (-x[1], -len(x[0]), x[0]))

# 출력
for i in voca_list:
    print(i[0])

4. 설명

문제 조건에 나온대로 구현하면 된다! 확인해야 할 것은 2가지인데

1. 길이가 M 이상인 단어만 단어장에 들어간다 -> M 미만이면 애초에 목록에 받지 않음

2. 선별된 단어들을 정렬해주는데 이때 1) 단어의 출현 횟수 2) 단어의 길이 3) 단어의 알파벳 순서 이 조건대로 정렬해주면 된다.

python에서는 sort 메서드, sorted 함수에 lambda 식을 적용할 수 있기 때문에 처음에는 다음과 같은 코드를 짰다.

# 시간 초과
import sys

# 입력 받기
N, M = map(int, sys.stdin.readline().rstrip().split(" "))
words = []
for _ in range(N):
    word = sys.stdin.readline().rstrip()
    if len(word) >= M:
        words.append(word)

# 단어장 만들기
# 람다식 활용과 아스키 코드 활용!
voca_list = sorted(words, reverse=True, key= lambda x: (words.count(x), len(x), -sum(ord(c) for c in x)))
voca_list = sorted(set(voca_list), key = lambda x: voca_list.index(x))

# 출력
for i in voca_list:
    print(i)

처음에는 리스트로 입력을 받았고, 조건 1), 2)는 내림차순이라 reverse=True로 작성했고, 그러고 나니 조건 3)이 문제라서 아스키 코드로 변환해 오름차순으로 정렬되도록 작성했다.

그러나 python3, pypy3 모두 1%에 이르고 시간 초과였다. 다시 생각해보니, 리스트는 사용되는 메서드의 시간복잡도가 O(N)이 되는 등(count) 많이 느렸기 때문에, 시간을 줄이기 위해 딕셔너리로 다시 입력을 받고 코드를 수정했다. 그 과정에서 다시 reverse=False로 설정하고 아스키코드로 변환하는 과정보다는 간단하도록 1), 2)에 해당하는 key를 -x[1], -len(x[0])으로 작성하였다. 

 

5. 배운 점

시간복잡도를 꼭 고려하는 습관을 들여야겠다... 사용하는 자료형에 따라 시간복잡도가 달라질 수 있다는 것도 항상 명심해야겠다. 그래도 예전보다 람다식을 편하게 쓰는 것 같아서 뿌듯하다..!

 

6. 참고 자료

 

[Python] 리스트와 딕셔너리의 주요 연산 시간 복잡도

요즘 코딩 테스트 언어를 파이썬으로 정하고 조금씩 문제를 풀어보는 중이다. 친구에게 * 라는 책을 추천받고 이 책에 나오는 문제들로 공부를 해보는 중에 리스트와 딕셔너리의 주요 연산 시간

velog.io