데이터를 추출하다가 partition by를 사용할 일이 생겨서 간단하게 정리. 부끄럽지만 처음 사용해보는 거라서 조금 헤맸다.. 자세히 설명해둔 글들이 많이 있었는데 주로 이 글과 이 글을 참고했다. ID Name Score Subject 1 Joe 100 Math 2 Jim 99 Math 3 Tim 98 Math 4 Joe 99 History 5 Jim 100 History 6 Tim 89 History 7 Joe 80 Geography 8 Tim 100 Geography 9 Jim 99 Geography 위와 같은 데이터가 있을 때 각 subject별로 점수 순위 상위 2명까지 추출하고 싶은 경우에는 다음과 같은 쿼리를 사용하면 된다. select * from ( SELECT Subject, Nam..
이 내용은 "최신 정보 검색론, 저자 안동언" 책을 공부하면서 간단하게 정리한 내용입니다. 해당 책은 스탠포드의 "CS 276 / LING 286: Information Retrieval and Web Search"에서 사용되는 교재입니다. 관심있으신 분은 위 링크에서 강의 PPT를 제공하고 있으니 참고하시면 좋을것 같습니다. 추가적인 내용이나 잘못된 내용등 피드백 주시면 언제든 감사하겠습니다. 정보 검색? 대규모의 자료 중에서 원하는 자료를 찾는 행위 검색을 쉽게하기 위한 방법이 색인. 찾고자 하는 검색의 대상들, 검색 대상이 되는 문헌(document)의 대상을 컬렉션 혹은 말뭉치(corpus)라고 함. Boolean검색 모델 :Boolean논리식의 형태로 모든 질의를 작성할 수 있는 정보 검색 모델..
1. 베이지안은 무엇인가요? : 실제로 관측된 데이터를 사용하여 확률 분포를 고려합니다. 2. 빈도주의자는 무엇인가요? : 선택의 가설을 조건으로 하며 관찰 여부에 관계없이(표본에 대한) 경험적으로 데이터의 분포를 고려합니다. 3. 가능도(우도)는 무엇인가요? : 매개변수 값 세트가 제공된 일부 관측된 결과의 확률은 결과가 제공된 매개 변수 값 세트의 가능성으로 간주됩니다. 주어진 표본 x들을 통하여 모집단의 모수 파라미터에 대한 추정이 그럴듯한지를 나타냅니다. 가능도란 어떤값이 관측 되었을 때, 이것이 어떤 확률 분포에서 왔을 지에 대한 확률입니다. (확률이란 주어진 확률 분포가 있을 때, 관측값 혹은 관측 구간이 분포 안에서 얼마의 확률로 존재하는가를 나타내는 값) 가설 로 세워진 확률 분포에 대해서..
Hadoop의 기술 면접을 대비해서 질문과 답을 정리했습니다. 제가 하둡을 실질적으로 다뤄본적은 없어서 다른것들 보다 더 표현이 이상할거 같습니다...ㅎㅎ 출처는 이곳이며, 피드백은 언제나 감사히 받도록 하겠습니다. 1. 관계형 데이터베이스와 HDFS의 차이점은 무엇인가요? : RDBMS 하둡 데이터 타입 구조화된 데이터, 스키마는 알려져있음 모든 데이터, 구조화 비구조화 반구조화 가공 제한된 처리기능 클러스터 전체에 분산된 데이터를 병렬 처리 읽기 데이터를 로드하기전에 스키마 유효성 검사 스키마 온 라이트 Hadoop은 읽기 정책에 스키마 스키마 온 리드 읽기/쓰기 속도 데이터 스키마가 이미 알려져 있으므로 읽기가 빠름 쓰기중에 유효성 검사가 수행되지 않으므로 쓰기가 빠름 사용 사례 OLTP 데이터 검..
기술 면접 대비가 시리즈가 되고 있는거 같습니다 ㅎㅎ 이번에는 Spark 면접 대비 질문답을 정리해보려고 합니다. 출처는 이곳이며, 다른 글과 마찬가지로 조언, 잘못된 점등 말씀해주시면 감사하겠습니다. 1. Apache Spark는 무엇인가요? : 아파치 스파크는 상용 하드웨어 클러스터에서 실행되는 클러스터 컴퓨팅 프레임워크로서 여러 소스에서 다양한 데이터를 읽고 쓰는 작업을 수행합니다. 스파크에서의 작업은 map과 reduce 작업이 있습니다. 2. Spark는 MapReduce와 어떻게 다르나요? 그리고 Spark는 MapReduce보다 빠른가요? : 예, 스파크는 맵리듀스보다 빠릅니다. 스파크가 맵리듀스보다 빠른 주요 이유는 다음과 같습니다. 스파크에는 긴밀한 결합이 없습니다. 다시말해서 맵후에 반..