csv 파일을 불러올 때 주로 pandas패키지의 read_csv를 사용하고 있습니다. 근데 최근에 대용량 파일을 불러와야 하는 경우가 있어서 효율적으로 불러오려면 어떻게 해야하는지 찾아보게되었습니다. 크게 두가지 방법이 있었는데 chunksize를 사용하는것과 dtype을 정의하는 것이었습니다. dtype을 정의한다고 많이 차이나겠어?라는 생각이 들었는데 주피터의 %memit을 사용해서 확인해보니 상당한 차이가 있었습니다... read_csv에는 low_memory 파라미터가 있는데 타입을 정의해주지 않는경우에 해당 파라미터가 사용되지 않는 경우가 많아서 인것 같습니다... 결론... read_csv를 사용할 때는 가능하면 dtype을 사용하자!
파이썬 프로젝트를 진행하다 보면 프로젝트 경로에 "__pychache__"라는 폴더가 생성되는 것을 볼수가 있습니다. 평소에 캐쉬파일인가 보다 하고 넘기다가 문득 쟤가 뭐하는 아이인지 궁금해져서 찾아보고 정리하게 됬습니다. https://stackoverflow.com/questions/16869024/what-is-pycache What is __pycache__? From what I understand, a cache is an encrypted file of similar files. What do we do with the __pycache__ folder? Is it what we give to people instead of our source code? Is it just my input ..
파이썬을 사용하다가 가끔 "리스트안에 특정 값이 있는지"를 확인하는 로직이 들어가는 경우가 있습니다. 평소에는 아래와 같이 사용을 하고 있습니다. 7 in num_list 근데 리스트의 크기가 매우 커지면서 해당 로직에 소요되는 시간이 엄청 길어졌습니다. 뭔가 다른 방법이 없을까? 하다가 검색해보니 이미 깔끔하게 정리해주신 분들이 계셔서 링크를 첨부합니다. https://stackoverflow.com/questions/7571635/fastest-way-to-check-if-a-value-exists-in-a-list Fastest way to check if a value exists in a list What is the fastest way to know if a value exists in a ..
Doc2vec을 사용할때 문서의 이름(태그)를 같이 학습합니다. 이때 학습 후 모델을 사용할때 학습할떄 포함되지 않은 태그를 불러오게 되면 오류가 나옵니다. 저는 해당 모델에 태그의 포함유무를 확인하는 과정이 필요해서 학습된 doc2vec 모델에 포함된 태그 리스트를 가져와야 했습니다. 찾아보니 gensim에서 자체적으로 포함하고 있는 기능이어서 간단하게 정리해 둡니다. tag_list = self.user_model.docvecs.index2entity