
1. 베이지안은 무엇인가요? : 실제로 관측된 데이터를 사용하여 확률 분포를 고려합니다. 2. 빈도주의자는 무엇인가요? : 선택의 가설을 조건으로 하며 관찰 여부에 관계없이(표본에 대한) 경험적으로 데이터의 분포를 고려합니다. 3. 가능도(우도)는 무엇인가요? : 매개변수 값 세트가 제공된 일부 관측된 결과의 확률은 결과가 제공된 매개 변수 값 세트의 가능성으로 간주됩니다. 주어진 표본 x들을 통하여 모집단의 모수 파라미터에 대한 추정이 그럴듯한지를 나타냅니다. 가능도란 어떤값이 관측 되었을 때, 이것이 어떤 확률 분포에서 왔을 지에 대한 확률입니다. (확률이란 주어진 확률 분포가 있을 때, 관측값 혹은 관측 구간이 분포 안에서 얼마의 확률로 존재하는가를 나타내는 값) 가설 로 세워진 확률 분포에 대해서..
Hadoop의 기술 면접을 대비해서 질문과 답을 정리했습니다. 제가 하둡을 실질적으로 다뤄본적은 없어서 다른것들 보다 더 표현이 이상할거 같습니다...ㅎㅎ 출처는 이곳이며, 피드백은 언제나 감사히 받도록 하겠습니다. 1. 관계형 데이터베이스와 HDFS의 차이점은 무엇인가요? : RDBMS 하둡 데이터 타입 구조화된 데이터, 스키마는 알려져있음 모든 데이터, 구조화 비구조화 반구조화 가공 제한된 처리기능 클러스터 전체에 분산된 데이터를 병렬 처리 읽기 데이터를 로드하기전에 스키마 유효성 검사 스키마 온 라이트 Hadoop은 읽기 정책에 스키마 스키마 온 리드 읽기/쓰기 속도 데이터 스키마가 이미 알려져 있으므로 읽기가 빠름 쓰기중에 유효성 검사가 수행되지 않으므로 쓰기가 빠름 사용 사례 OLTP 데이터 검..
기술 면접 대비가 시리즈가 되고 있는거 같습니다 ㅎㅎ 이번에는 Spark 면접 대비 질문답을 정리해보려고 합니다. 출처는 이곳이며, 다른 글과 마찬가지로 조언, 잘못된 점등 말씀해주시면 감사하겠습니다. 1. Apache Spark는 무엇인가요? : 아파치 스파크는 상용 하드웨어 클러스터에서 실행되는 클러스터 컴퓨팅 프레임워크로서 여러 소스에서 다양한 데이터를 읽고 쓰는 작업을 수행합니다. 스파크에서의 작업은 map과 reduce 작업이 있습니다. 2. Spark는 MapReduce와 어떻게 다르나요? 그리고 Spark는 MapReduce보다 빠른가요? : 예, 스파크는 맵리듀스보다 빠릅니다. 스파크가 맵리듀스보다 빠른 주요 이유는 다음과 같습니다. 스파크에는 긴밀한 결합이 없습니다. 다시말해서 맵후에 반..

Java 기술면접을 대비해서 간단한 질문과 답을 정리했습니다. 질문 답의 출처는 여기입니다. 링크의 내용을 번역하면서 공부한 내용을 추가했습니다. 잘못된 내용이 있을 경우에 말씀 부탁드리겠습니다. 1. Java는 무엇인가요? : Java는 컴퓨터 프로그래밍 언어로서, 클래스와 객체 지향적인 언어입니다. 객체 지향 언어의 이점은 다음과 같습니다. 코드의 수정, 유지, 정비가 편리하도록 모듈화된 개발 코드의 재 사용성 증가 코드의 유연성, 신뢰성 증가 코드에 대한 이해 증가 2. OOP (Object Oriented Programming)은 무엇인가요? : OOP는 다음의 특징을 포함합니다. 추상화 abstraction 캡슐화 Encapsulation 다형성 상속 미리 정의된 타입은 객체여야만 한다. 사용자..
python 기술면접에 대비해서 자주 나오는 질문과 답을 정리하려고 합니다. 질문의 출처는 여기이며, 이 글의 내용을 공부하면서 번역했습니다. 번역하면서 추가로 설명을 넣거나 표현을 변경하였는데 잘못된 점 있다면 말씀 부탁드리겠습니다. 6. 버그를 찾거나 정적 분석을 할수 있는 어플리케이션이 있나요? :pychecker, 정적 분석에 사용. pylint, 파이썬 모듈들이 표준 코딩을 만족하는지 체크. 7. decorator는 언제 사용되나요? : 함수를 빠르게 변경할 때 사용 가능합니다. 8.리스트와 튜플의 주된 차이점은 무엇인가요? : 리스트는 mutable하고 튜플은 immutable 합니다. 9. 파이썬에서 메모리는 어떻게 관리되나요? : 파이썬에서는 개별적인 힙을 사용해서 메모리를 유지합니다. 따..

얼마전 세팅한 RTX titan에서 딥러닝을 돌리는데 pycharm에서 "please increase xmx setting and shutdown pycharm" 이라는 메시지가 나와서 해결 정리하는 글입니다. 결론은 pycharm은 JVM기반으로 동작하기 때문에 메모리 조정이 필요하다는 것! 친절한 jetbrain에서 가이드를 공식홈페이지에서 제공해주고 있습니다. https://www.jetbrains.com/help/pycharm/tuning-the-ide.html 전체 메모리가 여유가 있어도 해당 설정에 따라서 out of memory가 날수 있으니 학습 중간에 후회하지말고 미리 세팅 하는것이 좋을듯 합니다. 구체적인 메모리 설정 방법을 다음과 같습니다. "Edit Custom VM Options...
로그스태시(logstash)는 elastic stack에서 ELK 파이프라인으로 자주 사용되는 도구라고 알고 있습니다. multi-input, multi-output을 지원하고 다양한 플러그인들을 제공해주어서 실시간 데이터 파이프라인으로 사용가능합니다.거기다 오픈소스입니다. 간단하게 로그스태시에 관한 내용들을 정리해 보려고 합니다. 오늘은 간단한 설명과 설치, 실행까지만 정리하려고 합니다. 1. 로그스태시란? 로그스태시란 뭔가에 대해서 공식홈페이지를 보면 아래와 같이 설명하고 있다. "logstash는 실시간 파이프라인 기능을 가진 오픈소스 데이터 수집엔진입니다" - by 엘라스틱 공식홈페이지 데이터 수집엔진이라고 나와 있어서 딱 감이 오기는 어려울수 있다.간단하게는 데이터를 수집하는 파이프라인의 개념으..
우분투와 같은 리눅스 운영체제에서 서버 환경설정을 하는 경우 폴더명을 직접 변경하는 것이 아니라 심볼릭 링크를 통해 쉽게 버전을 관리할 수 있다. ln -s (원본 파일, 디렉토리 이름) (심볼릭 링크 생성할 이름) ex) ln -s apache-cassandra-3.0.16 apache-cassandra 입력 후 ll 커맨드로 확인해 보면 lrwxr-xr-x 1 ... ... 23B 8 10 23:59 apache-cassandra -> apache-cassandra-3.0.16 과 같이 심볼릭 링크가 생성된것을 확인할 수 있다.