티스토리 뷰
csv 파일을 불러올 때 주로 pandas패키지의 read_csv를 사용하고 있습니다.
근데 최근에 대용량 파일을 불러와야 하는 경우가 있어서 효율적으로 불러오려면 어떻게 해야하는지 찾아보게되었습니다.
크게 두가지 방법이 있었는데 chunksize를 사용하는것과 dtype을 정의하는 것이었습니다.
dtype을 정의한다고 많이 차이나겠어?라는 생각이 들었는데 주피터의 %memit을 사용해서 확인해보니 상당한 차이가 있었습니다...
read_csv에는 low_memory 파라미터가 있는데 타입을 정의해주지 않는경우에 해당 파라미터가 사용되지 않는 경우가 많아서 인것 같습니다...
결론... read_csv를 사용할 때는 가능하면 dtype을 사용하자!
'개발 일반' 카테고리의 다른 글
[kubernetes] kubectl create vs apply (0) | 2020.07.16 |
---|---|
[kubernetess]no matches for kind “Deployment” in version "extensions/v1beta1 (0) | 2020.07.02 |
[Python] __pychache__ 에 대해서 (0) | 2020.05.12 |
[Python] 리스트가 특정 값을 가지고 있는지 확인하기 (0) | 2020.05.07 |
[Python] "killed" 명령어 원인 확인하기 (0) | 2020.04.20 |
댓글