분류 전체보기

· AI
최근 공개된 OpenAI의 o1모델에 큰 영향을 주었다고 알려진 논문입니다.OpenAI연구진은 언어모델의 수학 및 추론능력을 크게 향상시킨 방법론을 이미 1년전에 공개했습니다.논문링크 0. Abstract최근 몇년간, LLM의 복잡한 다단계 추론 성능이 크게 향상되었으나, SOTA 모델들도 여전히 논리적 오류를 발생시킨다. 신뢰성 있는 모델을 훈련하기 위해, 결과 감독(outcome supervision, 결과에 대한 피드백을 제공)과 과정 감독(process supervision, 중간 추론 단계에 대한 피드백 제공)을 비교할 필요가 있다. 해당 논문의 저자는 자체적인 조사를 통해 과정 감독이 결과 감독보다 MATH 데이터셋 문제를 훨씬 잘 해결한다는 것을 발견했다. 또한 능동 학습(active lea..
· AI
서론9월 13일 새벽 2시 (한국시간), open ai가 신규 모델 o1을 공개했습니다.  특이한점은 모델이름 앞에 항상 붙던 GPT가 사라졌다는 것입니다.generative pretrained transformer를 더 이상 사용하지 않는지, 혹은 그냥 새로운 네이밍을 가져가고 싶었는지는 미지수입니다. 그러나 확실한점은 모델 아키텍처나 구동면에 있어서 변화가 있다는 것입니다. o1 모델은 답변을 하기 전 "생각"하는 과정을 거치게 됩니다. 생각하는 시간은 가변적이며, 생각을 오래 할수록 정확도가 증가하는 추세를 보입니다. Open AI는 o1 모델이 미국 수학올림피아드에서 미국 학생 상위 500명에 들고,물리,생물학,화학 문제의 벤치마크에서 인간 박사수준의 정확도를 넘어섰다고 주장하고 있습니다.  벤치..
· 양자물리
논문 링크 Quantum error correction below the surface code thresholdQuantum error correction provides a path to reach practical quantum computing by combining multiple physical qubits into a logical qubit, where the logical error rate is suppressed exponentially as more qubits are added. However, this exponential suppressiarxiv.orgby Google Quantum AIAbstract양자컴퓨터 분야에 큰 기여를 할 것으로 기대되는 논문이 오늘 올라왔다 해서 ..
· AI
논문 링크  EXAONE 3.0 7.8B Instruction Tuned Language ModelWe introduce EXAONE 3.0 instruction-tuned language model, the first open model in the family of Large Language Models (LLMs) developed by LG AI Research. Among different model sizes, we publicly release the 7.8B instruction-tuned model to promote open researxiv.orghttps://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct LGAI-EXAONE/EXAONE..
· AI
앞서 다른 부트캠프 후기글을 작성할 때 언급했듯이, 인공지능 및 데이터 사이언스 분야는 혼자 공부하기 쉽지 않은 분야이다.학교에서도 인공지능, 기계학습 수업을 해주지만, 시간의 제약으로 인해 매우 기초적인 이론수업만 진행된다. 때문에 나는 인공지능 공부를 시작하고부터 매 방학마다 온/오프라인 AI 교육을 신청하여 수강한다.이번 방학에는 구글 머신러닝 부트캠프와 SKADA를 신청했고, SKADA만 붙게 되었다. 두개의 현업 프로젝트 교육을 이수하고, AI경연에 참여하면 수료증을 얻을 수 있다. 내가 선택한 프로젝트는[SK하이닉스] - DRAM 내부 회로 파형 예측[소보로] - 청각장애인을 위한 소리 분류 모델 개발 이 두가지였다. 다른 커리큘럼은 이미 어느정도 알고있는 CV나 시계열 모델들이었기 때문에, ..
· AI
SK AI Data Academy 1기 AI 경연반도체 SSD 신뢰성 사전 불량 예측에서 1위를 달성했습니다 제가 데이터를 분석하고 모델을 구축한 방법을 정리해보겠습니다 문제 개요이번 문제에서는 Data Center Storage에서 수집한 센서정보를 바탕으로 시계열 분류 모델을 구현하고 그 성능을 비교하고자 합니다Data Center에 사용되는 SSD는 일반적으로 24시간 작동해야 하며 문제가 발생할 경우 심각한 상황을 야기할 수 있습니다SSD의 센서정보를 통해 사전에 SSD에 이상이 발생할지 여부를 분류할 수 있는 모델을 개발하고, 그에 맞춰 이상 SSD를 검출하는 것이 목표입니다. 라고 하네요, 시계열 데이터 기반의 이상치 binary classification이 목표입니다.우선 데이터 분석을 해보..
· AI
몇일 전 자기전에 생각했던 방법인데 다음날 찾아보니 이미 논문이 나와있어 읽고 리뷰해봤습니다.논문링크 Abstract해당 논문에서는심층 신경망(Deep Nerual Network, DNN)의 훈련과정 중 구조화된 노이즈를 삽입하여 정규화 효과를 내는 "노이즈 주입 노드 규제"(Noise Injection Node Regularization, NINR) 방법을 제시한다. NINR로 학습된 DNN이 다양한 테스트 데이터 섭동 - (작고 미세한 변화나 변형, perturbations)에 대해 향상된 강건성을 보인다는것을 이론적 및 실험적으로 입증한다. 기존의 네트워크 구조나 최적화 알고리즘을 변경하지 않고 외부 노드를 추가하는 것만으로 구현이 가능하여 통합이 쉽다. 도메인 쉬프트 (훈련데이터와 테스트 데이터의..
· AI
심층 레이어의 비합리적인 비효율성논문 링크AbstractPreTrained LLM에 대해 간단한 레이어 제거를 실증적으로 연구한 결과, 절반에 가까운 레이어를 제거한 후에도 성능저하가 최소한으로 나타남을 알게 되었다 모델들을 가지치기(prune)하기 위해, 레이어 간의 유사성을 고려하여 (자를) 최적의 레이어 블록을 식별한 후, 손상을 '치유(heal)' 하기 위해 약간의 Fine Tuning을 수행한다 이러한 결과는 레이어 제거 방법이 다른 PEFT(Parameter Efficient Fine Tuning) 전략을 보완하여 Fine Tuning에 필요한 계산 자원을 줄이고, 추론 시 메모리와 지연시간을 개선할 수 있음을 시사한다 또한 LLM이 레이어를 삭제했음에도 불구하고 견고한 성능을 유지한다는 것은..
META_BS
'분류 전체보기' 카테고리의 글 목록 (3 Page)