toolkit, environment, Terabyte(TB) 단위 데이터 셔플링 - terashufTerabyte(TB) 단위 데이터 셔플링 - terashuf 리눅스에서 TB 단위의 데이터를 line 기준으로 셔플링이 필요할 때가 (가끔) 있다. 직접 코딩해서 쓰기에는 메모리, 속도 등을 신경써야해서 생각보다 큰 작업인데, terashuf…
toolkit, environment, GPT-NeoX - DeepSpeed InferenceGPT-NeoX - DeepSpeed Inference DeepSpeed Inference를 사용하면 간단하게 모델 추론 성능을 끌어올릴 수 있다. Tensor Parallel…
toolkit, environment, Docker - 공유 디렉토리 연결 (mount)Docker - 공유 디렉토리 연결 (mount) 도커를 쓰다보면 코드상에서 뭔가를 저장한다거나 어떤 데이터를 읽어와야 한다던가 하는 상황이 있는데, 이때 공유 디렉토리를 연결해서 run하면 편하다. 나 옵션을 이용하면 쉽게 가능하다.
nlp, environment, Sooftware NLP - Mecab 설치 & 사용자 정의 사전 추가Mecab 설치 & 사용자 정의 사전 추가 Mecab은 대표적인 형태소 분석기입니다. 한국어 형태소 분석기로 유명합니다만, Mecab은 본래 일본의 Taku Kudo…
toolkit, environment, Docker란?Docker 란? 도커는 컨테이너 기반의 오픈소스 가상화 플랫폼입니다. 배가 물건을 컨테이너에 넣어 운반하는 것처럼, 도커도 여러 가지 원하는 프로그램들을 컨테이너에 넣어 배포할 수 있다는 점이 비슷합니다. Docker 주요 개념…
software, environment, Mac iTerm2 + ZSH 세팅Mac iTerm2 + ZSH 세팅 개발환경에서 가장 중요한 소프트웨어 중 하나는 쉘입니다. 어떤 OS에서 작업하냐에 따라서 어떤 쉘을 쓰는지 등이 달라질텐데요, Mac OS에서 가장 많이 사용되는 iTerm2와 ZSH…