toolkit, llama, parallelism, ondevice, llama.cpp (On device llm inference tool)llama.cpp (On device llm inference tool) 최근에 llama.cpp를 사용해봤는데, 상당히 편리하고 미래에 더 많이 쓰일 툴이라는 생각이 들어서 기록해둔다! llama.cpp란? 대표적인 오픈소스 LLM인 Meta…
toolkit, web, chatgpt, [ELK] Elastic Search logstash - Nori 토크나이저 설정Elastic Search logstash - Nori 토크나이저 설정 이번에 회사에서 검색 기능을 구현하면서 Elastic Search를 다루게 됐다. 이 엔진을 다루면서 삽질을 많이 했는데, 다음에는 하지 않도록 기록용으로 남겨둔다. Elastic…
toolkit, web, chatgpt, 단 30줄로 ChatGPT 웹페이지 만들기 (Streamlit chat_message)단 30줄로 ChatGPT 웹페이지 만들기 (Streamlit chat_message) Streamlit은 파이썬 기반의 오픈소스 웹 UI 라이브러리입니다. 매우 간단한 코드로 손쉽게 웹페이지를 띄울 수 있어서 간단한 데모나 PoC…
toolkit, environment, Terabyte(TB) 단위 데이터 셔플링 - terashufTerabyte(TB) 단위 데이터 셔플링 - terashuf 리눅스에서 TB 단위의 데이터를 line 기준으로 셔플링이 필요할 때가 (가끔) 있다. 직접 코딩해서 쓰기에는 메모리, 속도 등을 신경써야해서 생각보다 큰 작업인데, terashuf…
toolkit, environment, GPT-NeoX - DeepSpeed InferenceGPT-NeoX - DeepSpeed Inference DeepSpeed Inference를 사용하면 간단하게 모델 추론 성능을 끌어올릴 수 있다. Tensor Parallel…
toolkit, environment, Docker - 공유 디렉토리 연결 (mount)Docker - 공유 디렉토리 연결 (mount) 도커를 쓰다보면 코드상에서 뭔가를 저장한다거나 어떤 데이터를 읽어와야 한다던가 하는 상황이 있는데, 이때 공유 디렉토리를 연결해서 run하면 편하다. 나 옵션을 이용하면 쉽게 가능하다.
toolkit, python, Sooftware Pandas - 다중 딕셔너리를 Pandas DataFrame으로!Sooftware Pandas - 다중 딕셔너리를 Pandas DataFrame으로! 가끔 데이터를 요렇게 저렇게 정리하다가보면, 데이터를 멀티인덱싱(Multi-Indexing…
toolkit, Slack BotSlack Bot Python과 Slack API를 사용하여, 특정 채널에 자동으로 글을 올리거나 댓글을 달아주는 슬랙봇을 만들어보겠습니다. 두 개의 과정으로 진행되는데, 첫 번째는 Slack API에 bot을 등록하는 것이고 두 번째는 등록된 bot…
toolkit, logging, Sooftware ML - Wandb Image LogWandb (Weights & Bias) Image Log Wandb 라이브러리는 최근에 가장 편리하면서도 파워풀한 logging 라이브러리입니다. NLP에서 많이 쓰이는 PyTorch, PyTorch-Lightning, Huggingface…
toolkit, environment, Docker란?Docker 란? 도커는 컨테이너 기반의 오픈소스 가상화 플랫폼입니다. 배가 물건을 컨테이너에 넣어 운반하는 것처럼, 도커도 여러 가지 원하는 프로그램들을 컨테이너에 넣어 배포할 수 있다는 점이 비슷합니다. Docker 주요 개념…
toolkit, Sooftware ML - BentoMLBentoML Machine Learning Serving 라이브러리인 BentoML 사용방법에 대해 정리합니다. image 주요 특징 Online / Offline Serving Flask 기반 모델보다 100배의 처리량을 가지고, Adaptive…
toolkit, Sooftware ML - PyTorch LightningPyTorch Lightning 대표적인 딥러닝 프레임워크로 , 가 있습니다. 최근에는 보다 를 선호하는 유저가 많아지는 것 같습니다. PyTorch Lightning 은 PyTorch에 대한 High-level…
toolkit, Sooftware ML - wandb (Weight & Bias)wandb (Weight & Bias) image 는 Tensorboard와 같이 log를 보기 쉽게 시각화해주는 툴입니다. Tensorflow, PyTorch, transformers, PyTorch-Lightning…
speech, toolkit, record, PORORO Text-To-Speech (TTS)PORORO Text-To-Speech (TTS) 얼마전에 저희 팀에서 공개한 PORORO: Platform Of neuRal mOdels for natuRal language prOcessing 라이브러리에 제가 공들여만든 TTS…
nlp, toolkit, record, Sooftware NLP - Pororo: A Deep Learning based Multilingual Natural Language Processing LibraryPororo: A Deep Learning based Multilingual Natural Language Processing Library Link: https://github.com/kakaobrain/pororo…
toolkit, nlp, Sooftware NLP - Fairseq HydraFairseq’s Hydra Fairseq이 0.10.1로 버젼 업그레이드를 하면서 configuration 관리를 Hydra로 하게됨. Fairseq을 실행시키는 command line…
toolkit, Sooftware ML - HydraHydra: framework for elegantly configuring complex applications Facebook Research에서 공개한 오픈소스. 복잡한 Configuration…