분류 전체보기
-
데이터 품질 주도 관점에서의 MLOps (A Data Quality-Driven View of MLOps)카테고리 없음 2023. 9. 11. 15:38
요즘 MLOps 에 대해서 공부하고 있다. 사실, 논문보다는 engineering 쪽에 가까워서 논문이 많이 없는데 하나를 찾아서 공부한 내용을 정리해본다. 내게 공부거리가 될 부분만 정리함. https://arxiv.org/abs/2102.07750 A Data Quality-Driven View of MLOpsDeveloping machine learning models can be seen as a process similar to the one established for traditional software development. A key difference between the two lies in the strong dependency between the quality of a machi..
-
파운데이션 모델의 기회와 위험요소들(On the opportunities and risks of foundation models)카테고리 없음 2023. 9. 1. 02:18
https://arxiv.org/abs/2108.07258 On the Opportunities and Risks of Foundation ModelsAI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically centrarxiv.org저자수도 엄청나고 페이지 수도 무려 214페이지(!)나 된다. 현재 구글 스칼라 기준으로..
-
빅데이터의 가치 (feat. sqrt(n))카테고리 없음 2023. 8. 26. 23:48
https://product.kyobobook.co.kr/detail/S000001875107 따라 하며 배우는 데이터 과학 | 권재명 - 교보문고 따라 하며 배우는 데이터 과학 | '데이터를 지배하는 자가 앞으로의 IT 패권을 가져갈 가능성이 높다.'알리바바의 마윈 회장의 말이다. 현대는 그야말로 데이터의 시대다. 따라서 데이터 과학이 product.kyobobook.co.kr 권재명 님의 ≪따라하며 배우는 데이터 과학≫ 책을 다시 보고 있다. 나온지 꽤 된 책이지만, 통계학을 전공하신 만큼 기본기에 대해 탄탄하게 서술하고 있고, 그 안에 알찬 내용이 많다. 오늘 질문은 다음과 같다. 데이터의 가치는 샘플의 수와 비례하는가? 단순하게 생각하면 데이터를 2배 모으면 결과가 2배 또는 그 보다 약간 못하지..
-
데이터 중심 인공지능: 자료조사(Data-centric AI: A Survey)카테고리 없음 2023. 7. 14. 15:43
앤드류 응 교수가 Data-centric AI 의 중요성을 말한 이후, 여러 곳에서 데이터가 중요하다는 말들과 자료들이 쏟아져 나오고 있다. 그럼에도 불구하고, 논문을 통해서 data-centric approach를 본적은 드문 것 같다. 그 이유로 몇가지를 생각해봤다.데이터 관련해서 논문쓰기가 난해하다. 모델 관련 쓰는게 깔끔하다.실제 데이터 관련한 들은 주로 기업에 모일텐데, 공개하기가 쉽지 않다. (요즘 데이터는 자산에 가깝다) 그중에 서베이 논문을 발견하여 정리해본다. 아래의 그림을 보면 ChatGPT로 유명해진 GPT 모델을 첫번째 예로 들고 있는데, 갈수록 데이터량이 많아질 뿐만 아니라 데이터의 질을 높이는 시도가 계속되고 있다고 한다 (추가로 뿐만 아니라 Human Feedback 을 이용해..
-
샘 알트만 (Sam Altman) 청문회: 내맘대로 결정적 순간카테고리 없음 2023. 7. 11. 00:55
샘 알트만 청문회에 대한 기사를 보고, 한번 전체 영상을 봐야지봐야지 하다가 최근에야 운전하면서 대충 다 듣게 되었다. 내 질문은 어떻게 샘 알트만이 다른 빅테크 CEO와 달리 칭찬을 받았을까? 하는 것이었다. 이미 다른 곳에서 다룬바가 있지만, 내 방식으로 영어 공부 겸 정리해봄. 내맘대로 결정적 순간이라 이름 붙이고 기록해본다. :) https://contents.premium.naver.com/themiilk/business/contents/230517095635821nq [전문] “AI 개발, 미국 리더십 중요”... 샘 알트만 청문회서 안전성·정부 역할 강조 “AI, 민주적 가치 염두에 두고 개발돼야”... AI 기술 美 주도권 강조 AI 관련 라이선스 및 테스트 요건 도입 제안... 규제 개입..
-
파운데이션 모델(Foundation Model)과 생성모델(Generative Model)의 차이카테고리 없음 2023. 6. 28. 01:02
Diffusion Model 에 대해서 이야기 하다가 Foundation Model = Generative Model 로 생각하는 사람들이 있어서 정리해본다. Foundation 모델의 정의에 대해서는 다음의 논문을 참조하였다. [1] https://arxiv.org/abs/2108.07258 On the Opportunities and Risks of Foundation Models AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. ..
-
디퓨전 확률 모델(Diffusion probabilistic models) (1)카테고리 없음 2023. 6. 22. 23:18
원래는 아래 논문을 읽고 정리하려고 했는데, 너무 어렵더라. [2006.11239] Denoising Diffusion Probabilistic Models (arxiv.org) Denoising Diffusion Probabilistic Models We present high quality image synthesis results using diffusion probabilistic models, a class of latent variable models inspired by considerations from nonequilibrium thermodynamics. Our best results are obtained by training on a weighted variational bound ..
-
디퓨전 모델(Diffusion Model): 사전지식카테고리 없음 2023. 6. 22. 22:55
디퓨전 확률모델(Diffusion Probabilistic Model), 줄여서 디퓨전 모델(Diffusion Model)을 공부하다 알게된 용어들과 개념들을 정리해본다. Langevin dynamics 랑쥬뱅(Langevin)이라는 프랑스 물리학자가 발명한 이론으로 처음에는브라운 운동(brownian motion)을 설명하기 위해 사용되었다. https://perceptron.blog/langevin-dynamics/ Langevin Monte Carlo: Sampling using Langevin Dynamics A tutorial on how to sample from a distribution using Langevin Dynamics, why it works. perceptron.blog 재밌는..