논문 링크 Abstract & Introduction최근 연구는 효율적인 신경망 아키텍처 개발에 집중되고있다.본 연구에서는 Logic Gate Networks를 활용하여 기계학습 task를 수행하는 방법을 제시 Logic Gate Networks는 "AND"나 "XOR" 같은 Logic Gate로 구성되어 매우 빠른 실행속도를 제공Logic Gate Networks는 전통적으로 미분불가능하여 Gradient Descent를 통한 훈련이 어려움효과적인 훈련을 위해, 실수값 논리와 연속적으로 파라미타화된 네트워크 완화(relaxation)를 결합한 Differentiable Logic Gate Networks라는 아키텍처를 제안입력값들이 여러 층의 논리게이트를 거치면서 처리된다. 각 논리게이트는 두개의 입력..
논문 링크Abstract해당 논문은 잠재 공간 (latent space)에서 사고하여 테스트 시점(test-time)에서 연산을 확장할 수 있는 새로운 언어 모델 아키텍처를 제안한다. 기존 모델들은 Chain-of-Thought (COT) 방식으로 더 많은 토큰을 생성하며 연산을 확장했다.반면, 본 연구의 모델은 재귀 블록(recurrent block)을 반복적으로 실행하여 임의의 깊이로 연산을 진행한다. 특수한 훈련 데이터 없이도 동작하며, 작은 context window에서도 효과적인 학습이 가능하다. 언어로 표현하기 어려운 다양한 유형의 추론을 학습할 수 있다. 연속 공간에서의 사고를 통한 확장 (Scaling by Thinking in Continuous Space)기존 접근법의 한계초기 언어 모..
선수 지식강화학습과 정책 최적화정책(Policy): πθ(y|x) - 에이전트가 특정 상태에서 어떤 행동을 선택할 확률. - 여기서는 모델의 입력(prompt) x에 대해 출력 y를 생성하는 확률 분포를 정책으로 정의.보상 함수(Reward Function): r(x, y) - 모델의 출력 y가 입력 x에 대해 얼마나 좋은지를 평가. - 높은 보상: 선호되는 응답 (chosen outputs). - 낮은 보상: 거부된 응답 (rejected outputs).기대 보상의 최적화 - 목표: 모델의 정책이 높은 보상을 받도록 최적화. - 최적화 식: $\max_\theta \mathbb{E}_{x \sim D, y \sim \pi_\the..
Generative Adversarial Nets (GAN)생성적 적대 신경망 생성자 (Generator)와 판별자 (Discriminator)의 적대적 학습 (Adversarial learning)을 통해 성장하는 모델 '간'으로 발음하는 분이 계시는데 '겐'입니다 (제작자 오피셜) GAN의 구성요소입력 영상의 [Real] or [Fake]를 판별하는 Discriminator (판별자) 실제 이미지의 판별결과: $$( \mathbb{E}_{x \sim p_{\text{data}}(x)} \left[ \log D(x) \right] )$$ x는 실제 데이터에서 샘플링 된 이미지, D(x)는 판별자가 이 이미지가 진짜라고 판단하는 확률 판별자가 실제 이미지를 진짜라고 올바르게 판단하도록 유도 가짜 이..
1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs BitNet의 소개와 구조에 관한 논문은 아래 링크에서 확인 가능합니다https://beomsun0829.tistory.com/45 논문 리뷰 - The Era of 1-bit LLMs:All Large Language Models are in 1.58 Bits논문링크 요약 비트넷과 같은 최근 연구는 1bit LLM(거대 언어 모델)의 새로운 시대를 열고 있다. 본 연구에서는 1-bit LLM의 변형인, BitNet b1.58을 소개한다. 이 모델은 모든 단일 매개변수 (또는 가중beomsun0829.tistory.com 이번에 bitnet.cpp와 모델이 오픈소스로 ..
Abstract정확도 높은 대부분의 예보 시스템 : Numerical weather prediction method(이하 NMP)에 기반그러나 이러한 것들은 비용적인 측면에서 비싸다는 단점이 존재현재 AI 기술을 기반으로 한 다양한 method가 개발 중 (높지 않은 정확도) Pangu-Weather : 복잡한 날씨 패턴을 다루기 위해 지구 관련된 사전 지식을 기반으로 한 3차원 딥러닝 네트워크 계층적 집계 전략을 이용하여 중기 예보에서의 오류를 줄임. 39년 누적 데이터를 이용하여 분석하였으며 ECMWF와 비교하였을 때 여러 부분에서 우세함 극한 기상 및 ensemble한 기상 예보에서도 잘 작동하였으며 태풍을 추적하는 정확도 또한 ECMWF-HRES(High-Resolution-Forecast..
서론기존 기술의 문제점LLM은 모델이 내포하고 있는 Parametric knowledge에 의존하고 있어, 사실과 다른 답변을 내놓는 경우가 있음Retrieval-Augmented Generation(RAG)은 LLM + 연관된 지식을 검색해서 추가하는 방식으로 위 문제를 감소시킴검색의 필요 여부에 상관없이, 고정된 숫자의 검색된 구절을 무차별적으로 검색하고 통합하는건 LM의 다재다능함을 악화시키거나, 도움이 되지 않는 응답을 생성할 수 있음Self-RAGSelf-Reflective Retrieval-Augmented Generation(SELF-RAG) 언어모델이 필요에 따라 구절을 검색, 검색된 구절과 LM 자체 생성물을 반영하고 생성할 수 있도록특수한 토큰 (Reflection token) 을 사..
Regression of Used Car Prices Reference : Wheels & Deals: Regression Modeling for Cars 주어진 데이터를 기반으로 price를 예측하는 regression 문제입니다. 데이터 분석 및 추출 방법을 분석해봤습니다 EDABasic EDA plt.figure(figsize = (14,6))sns.heatmap(df.isnull(), cbar=False, cmap='viridis')plt.title('Heatmap of Missing Values in Training Data')plt.show() Visualizationcolumns = {'int64' : [], 'object' : []}for col, typ in df.dtypes...