spark를 사용하면서 sql에서 편리하게 사용하던 DATEDIFF를 사용하려고 하다가 차이점이 있어서 정리하는 글입니다. SQL에서는 날짜, 연도, 시간등을 파라미터로 입력받아서 종류 별로 차이를 구할수 있지만 spark에서는 파라미터를 받지 못하며 기본적으로 day로만 DATEDIFF를 사용할 수 있습니다. --SQL Server DATEDIFF ( datepart , startdate , enddate ) --Spark DATEDIFF ( enddate , startdate ) https://stackoverflow.com/questions/52527571/datediff-in-spark-sql DATEDIFF in SPARK SQl I am new to Spark SQL. We are migrat..
간단한 내용이지만 막상 하려고 하니 조금 시간이 걸려서 정리해둡니다. import csv import json csvfile = open('file.csv', 'r') jsonfile = open('file.json', 'w') fieldnames = ("FirstName","LastName","IDNumber","Message") reader = csv.DictReader( csvfile, fieldnames) for row in reader: json.dump(row, jsonfile) jsonfile.write('\n') https://stackoverflow.com/questions/19697846/how-to-convert-csv-file-to-multiline-json How to conver..
파이썬으로 url 다운로드를 받을 때 다음과 같은 에러 메시지가 나오는 경우가 있다. urllib.error.URLError: 특히, 머신러닝 test코드나 download코드의 경우 발생할 수있는 에러인데 해결 방법은 간단하다. 나의 경우 mac을 사용하고 있는데, 응용프로그램 -> python3.7 -> Install Certificates.command 더블 클릭 실행 이렇게 진행하면 터미널 창에서 자동으로 설치를 한다. 그 이후 동일한 코드를 실행하면 에러없이 잘 작동하는 것을 확인할 수 있다.
데이터를 추출하다가 partition by를 사용할 일이 생겨서 간단하게 정리. 부끄럽지만 처음 사용해보는 거라서 조금 헤맸다.. 자세히 설명해둔 글들이 많이 있었는데 주로 이 글과 이 글을 참고했다. ID Name Score Subject 1 Joe 100 Math 2 Jim 99 Math 3 Tim 98 Math 4 Joe 99 History 5 Jim 100 History 6 Tim 89 History 7 Joe 80 Geography 8 Tim 100 Geography 9 Jim 99 Geography 위와 같은 데이터가 있을 때 각 subject별로 점수 순위 상위 2명까지 추출하고 싶은 경우에는 다음과 같은 쿼리를 사용하면 된다. select * from ( SELECT Subject, Nam..
이 내용은 "최신 정보 검색론, 저자 안동언" 책을 공부하면서 간단하게 정리한 내용입니다. 해당 책은 스탠포드의 "CS 276 / LING 286: Information Retrieval and Web Search"에서 사용되는 교재입니다. 관심있으신 분은 위 링크에서 강의 PPT를 제공하고 있으니 참고하시면 좋을것 같습니다. 추가적인 내용이나 잘못된 내용등 피드백 주시면 언제든 감사하겠습니다. 정보 검색? 대규모의 자료 중에서 원하는 자료를 찾는 행위 검색을 쉽게하기 위한 방법이 색인. 찾고자 하는 검색의 대상들, 검색 대상이 되는 문헌(document)의 대상을 컬렉션 혹은 말뭉치(corpus)라고 함. Boolean검색 모델 :Boolean논리식의 형태로 모든 질의를 작성할 수 있는 정보 검색 모델..
![](http://i1.daumcdn.net/thumb/C148x148/?fname=https://blog.kakaocdn.net/dn/d8VY0q/btqy67d28QL/u78JSf9xEabQk9dGxkkkIK/img.png)
1. 베이지안은 무엇인가요? : 실제로 관측된 데이터를 사용하여 확률 분포를 고려합니다. 2. 빈도주의자는 무엇인가요? : 선택의 가설을 조건으로 하며 관찰 여부에 관계없이(표본에 대한) 경험적으로 데이터의 분포를 고려합니다. 3. 가능도(우도)는 무엇인가요? : 매개변수 값 세트가 제공된 일부 관측된 결과의 확률은 결과가 제공된 매개 변수 값 세트의 가능성으로 간주됩니다. 주어진 표본 x들을 통하여 모집단의 모수 파라미터에 대한 추정이 그럴듯한지를 나타냅니다. 가능도란 어떤값이 관측 되었을 때, 이것이 어떤 확률 분포에서 왔을 지에 대한 확률입니다. (확률이란 주어진 확률 분포가 있을 때, 관측값 혹은 관측 구간이 분포 안에서 얼마의 확률로 존재하는가를 나타내는 값) 가설 로 세워진 확률 분포에 대해서..
Hadoop의 기술 면접을 대비해서 질문과 답을 정리했습니다. 제가 하둡을 실질적으로 다뤄본적은 없어서 다른것들 보다 더 표현이 이상할거 같습니다...ㅎㅎ 출처는 이곳이며, 피드백은 언제나 감사히 받도록 하겠습니다. 1. 관계형 데이터베이스와 HDFS의 차이점은 무엇인가요? : RDBMS 하둡 데이터 타입 구조화된 데이터, 스키마는 알려져있음 모든 데이터, 구조화 비구조화 반구조화 가공 제한된 처리기능 클러스터 전체에 분산된 데이터를 병렬 처리 읽기 데이터를 로드하기전에 스키마 유효성 검사 스키마 온 라이트 Hadoop은 읽기 정책에 스키마 스키마 온 리드 읽기/쓰기 속도 데이터 스키마가 이미 알려져 있으므로 읽기가 빠름 쓰기중에 유효성 검사가 수행되지 않으므로 쓰기가 빠름 사용 사례 OLTP 데이터 검..
기술 면접 대비가 시리즈가 되고 있는거 같습니다 ㅎㅎ 이번에는 Spark 면접 대비 질문답을 정리해보려고 합니다. 출처는 이곳이며, 다른 글과 마찬가지로 조언, 잘못된 점등 말씀해주시면 감사하겠습니다. 1. Apache Spark는 무엇인가요? : 아파치 스파크는 상용 하드웨어 클러스터에서 실행되는 클러스터 컴퓨팅 프레임워크로서 여러 소스에서 다양한 데이터를 읽고 쓰는 작업을 수행합니다. 스파크에서의 작업은 map과 reduce 작업이 있습니다. 2. Spark는 MapReduce와 어떻게 다르나요? 그리고 Spark는 MapReduce보다 빠른가요? : 예, 스파크는 맵리듀스보다 빠릅니다. 스파크가 맵리듀스보다 빠른 주요 이유는 다음과 같습니다. 스파크에는 긴밀한 결합이 없습니다. 다시말해서 맵후에 반..