toolkit, environment, Terabyte(TB) 단위 데이터 셔플링 - terashufTerabyte(TB) 단위 데이터 셔플링 - terashuf 리눅스에서 TB 단위의 데이터를 line 기준으로 셔플링이 필요할 때가 (가끔) 있다. 직접 코딩해서 쓰기에는 메모리, 속도 등을 신경써야해서 생각보다 큰 작업인데, terashuf…
nlp, rlhf, RLHF는 수다쟁이를 만든다?! (Does RLHF Breed Verbose Chatterboxes?!)RLHF는 수다쟁이를 만든다?! (Does RLHF Breed Verbose Chatterboxes?!) RLHF(Reinforcement Learning from Human Feedback)는 OpenAI의 ChatGPT…