2024年10月22日の週に気になった記事などまとめ

kaggle小技まとめてみた(随時更新予定)

note.com

Jailbreaking LLM-Controlled Robots

arxiv.org

LLMを制御するロボットをジェイルブレイクするために設計されたアルゴリズムを紹介する論文

チームに無能がいなくなる『メンバー全員で公式ドキュメントを読みあわせる』に感銘をうけた話。

qiita.com

生成AIスタートアップ社内での生成AI活用事例 ~バックオフィス編~

note.com

社内文書をランダムにピックアップし、自動要約し毎週社内チャットに投稿する

Introducing Dify Workflow File Upload: A Demo on AI Podcast

dify.ai

Difyにファイルアップロード機能とAI Podcastの機能が追加された

Benchmarking Agentic Workflow Generation

arxiv.org

LLMエージェントの統合ワークフローを評価するベンチマークを紹介する論文

LLMOps : ΔMLOps

speakerdeck.com

pypdfium2

github.com

DifyでPDFから情報抽出する際に利用しているライブラリ

IBMのgranite3-dense(2B/8B)をColabでためしてみる

bwgift.hatenadiary.jp

RAGやコード生成などのタスク向けモデル
日本語に対応している

Open Canvas

github.com

OSSのOpenAI Canvasのような機能を持つライブラリ

Azure Podcast Generator

github.com

Azure OpenAIとAzure AI Speechを利用してドキュメントを基にPodcastを生成するライブラリ
Document Intelligenceでマークダウンを出力し、それを基にPodcastのスクリプトを生成している

まだLLM API呼び出しで消耗してるの？LiteLLMによるAPI呼び出し共通化のススメ

zenn.dev

様々なLLM APIをOpenAIフォーマットで呼び出せるライブラリ
プロキシサーバを立てることもできる

自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方

techblog.gaudiy.com

GenEOL:複数の文章変換と要約でRAGの性能を向上

zenn.dev

文章をLLMを用いて複数の文章に変換する
作成された文章の要約文を作る
それぞれの文のベクトルデータを計算する
ベクトルデータの平均を計算する

Cohereからテキストと画像の両方から埋込みを作成するマルチモーダル対応の埋め込みモデルが発表された

Claude の computer use を試す

note.com

Developing a computer use model

www.anthropic.com

Computer use機能の説明記事
スクリーンショットで画面上の内容を把握し、ピクセル単位でカーソルを正確に移動させるためのトレーニングを実施

Claude 3.5 Sonet (new) と Claude 3.5 Haikuと computer use の概要

note.com

Claude3.5 HaikuはClaude3 Opusをベンチマークで上回る
Claude 3.5 Haikuは10月末に利用可能になる予定

computer use モデルの開発

note.com

Stable Diffusion 3.5 のご紹介

ja.stability.ai

Stable Diffusion 3.5が公開された

「合成データの作成について」松尾研 LLM コミュニティ "Paper & Hacks Vol.21"

www.youtube.com

SPLADE モデルの作り方・日本語SPLADEテクニカルレポート

secon.dev

日本語SPLADEモデルをMITライセンスで公開した

Transformers.js v3 の概要

note.com

HuggingFace Diffusers v0.31.0の新機能

note.com

Claudeの最新モデル登場！PCを自動で操作できるComputer useなどを解説してみた

www.youtube.com

現段階では操作が不安定で、正確性が求められる業務にはまだ限界がある

マネージャー歴10年をふりかえって気づいた、成長のターニングポイントと習慣

note.com

内側だけを見ると長い目で見るとチームを壊してしまう可能性がある
インセプションデッキで相互理解を形成しながら自己開示し、向かう先を明らかにする

新規チームで新規開発を始める時にやること

speakerdeck.com

Anthropic Claude の Computer Use Demo を解剖する：仮想世界を操るAIエージェント

hamaruki.com

Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs

arxiv.org

法的ケース検索強化のために合成クエリデータを自動構築する手法を提案した論文

Claude「Computer use」をWindowsで環境構築して使ってみた

note.com

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合

note.com

LLMアプリにhuman-in-the-loopを追加する「HumanLayer」を試す

zenn.dev

LangChainやOpenAI SDKと連携できる
特定の関数実行時にユーザーの許可を必要とするということができる

Amazon Redshift との Amazon DynamoDBゼロ ETL 統合の始め方

aws.amazon.com

agent.exe

github.com

CaluadeのComputer useをローカルコンピュータで簡単に試せるリポジトリ

Introducing the analysis tool in Claude.ai

www.anthropic.com

Claude.aiの分析ツールについて説明した記事

OmniParser for Pure Vision Based GUI Agent

microsoft.github.io

UIのスクリーンショットを構造化要素に分解するモデルを紹介する記事
GUI操作の自動化に役立つモデル

TinyMLの技術動向

speakerdeck.com

Transformers.js v3 で Qwen2.5-0.5B-Instruct を試す

note.com

LangGraphでユーザーの性格分析+会話記憶を持ったチャットエージェントを試作するメモ

note.com

ユーザーの特性を分析・記憶し、過去の会話内容を元に応答するチャットボットを作成してみた記事

gemma-2-9b-itにプログラムはかけるか？

note.com

-Fast APIで画像をレスポンスするコードと、JavaScriptのFastAPIにアクセスするコードでコード生成能力を検証した記事

Create a next generation chat assistant with Amazon Bedrock, Amazon Connect, Amazon Lex, LangChain, and WhatsApp

aws.amazon.com

組織のデータからコンテキストを取得し、回答を生成するアプリのAWS実装を紹介する記事

Weekly AI Agents News!

speakerdeck.com

Super charge your LLMs with RAG at scale using AWS Glue for Apache Spark

aws.amazon.com

Glueを用いて非構造データをクリーニング・チャンク化し、OpenSearch Serviceに入れる方法を紹介する記事

Ollamaで体験する国産LLM入門

zenn.dev

llama.cppの量子化のおすすめは、Q5_K_M、Q4_K_M

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その5: LangGraphによるRAGエージェント化による精度改善の検証

note.com

オープンLLMのLLM as a JudgeにおけるJudgeモデルとしての性能を検証してみる

zenn.dev

オープンLLMのJudgeモデルとしての西欧を検証した記事
Pairwaise評価での自動判定の精度に焦点を当てている
オープンLLMでも高い精度でのJudgeができる

AIでPCを自動操作するClaudeの新機能の使い方

note.com

英語で検索sるうと、作業の成功確率が上がる
試行錯誤を繰り返すので、使用料金も安くない

AWS構成図を S3 にアップするだけで Terraform のコードを git push / pull requestから terraform planまで自動で動作するシステム

speakerdeck.com

ElevenLabs で Text-to-Speech を試す

note.com

Beyond Browsing: API-Based Web Agents

arxiv.org

APIベースとブラウザアクセスを使い分けるWebエージェントが優れた性能と示した論文

10年ちょっとやってきた僕のアジャイル開発の現在地

zenn.dev

クレディセゾンにおける内製開発の取り組み

speakerdeck.com

Amazon Personalize Prototyping Camp 自習資料

speakerdeck.com

kaggle小技まとめてみた(随時更新予定)

Jailbreaking LLM-Controlled Robots

チームに無能がいなくなる『メンバー全員で公式ドキュメントを読みあわせる』に感銘をうけた話。

生成AIスタートアップ社内での生成AI活用事例 ~バックオフィス編~

Introducing Dify Workflow File Upload: A Demo on AI Podcast

Benchmarking Agentic Workflow Generation

LLMOps : ΔMLOps

pypdfium2

IBMのgranite3-dense(2B/8B)をColabでためしてみる

Open Canvas

Azure Podcast Generator

まだLLM API呼び出しで消耗してるの？LiteLLMによるAPI呼び出し共通化のススメ

自動化するLLMシステムの品質管理: LLM-as-a-judge の作り方

GenEOL:複数の文章変換と要約でRAGの性能を向上

Google Colab で xAI APIを試す

深層学習に基づく音声変換の進展と展望

LLMでPCを操作！？Claudeの新機能「computer use」を早速試してみた

Introducing Multimodal Embed 3: Powering AI Search

Claude の computer use を試す

Developing a computer use model

Claude 3.5 Sonet (new) と Claude 3.5 Haikuと computer use の概要

computer use モデルの開発

Stable Diffusion 3.5 のご紹介

「合成データの作成について」松尾研 LLM コミュニティ "Paper & Hacks Vol.21"

SPLADE モデルの作り方・日本語SPLADEテクニカルレポート

Transformers.js v3 の概要

HuggingFace Diffusers v0.31.0の新機能

Claudeの最新モデル登場！PCを自動で操作できるComputer useなどを解説してみた

マネージャー歴10年をふりかえって気づいた、成長のターニングポイントと習慣

新規チームで新規開発を始める時にやること

Anthropic Claude の Computer Use Demo を解剖する：仮想世界を操るAIエージェント

Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs

Claude「Computer use」をWindowsで環境構築して使ってみた

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その4: LangGraphによるエージェント化と自動の文献情報の照合

LLMアプリにhuman-in-the-loopを追加する「HumanLayer」を試す

Amazon Redshift との Amazon DynamoDBゼロ ETL 統合の始め方

agent.exe

Introducing the analysis tool in Claude.ai

OmniParser for Pure Vision Based GUI Agent

TinyMLの技術動向

Transformers.js v3 で Qwen2.5-0.5B-Instruct を試す

LangGraphでユーザーの性格分析+会話記憶を持ったチャットエージェントを試作するメモ

gemma-2-9b-itにプログラムはかけるか？

Create a next generation chat assistant with Amazon Bedrock, Amazon Connect, Amazon Lex, LangChain, and WhatsApp

Weekly AI Agents News!

Super charge your LLMs with RAG at scale using AWS Glue for Apache Spark

Ollamaで体験する国産LLM入門

GPT-4o(Claude)に危険物取扱者試験(甲種試験)を解かせてみる-その5: LangGraphによるRAGエージェント化による精度改善の検証

オープンLLMのLLM as a JudgeにおけるJudgeモデルとしての性能を検証してみる

AIでPCを自動操作するClaudeの新機能の使い方

AWS構成図を S3 にアップするだけで Terraform のコードを git push / pull requestから terraform planまで自動で動作するシステム

ElevenLabs で Text-to-Speech を試す

Beyond Browsing: API-Based Web Agents

10年ちょっとやってきた僕のアジャイル開発の現在地

クレディセゾンにおける内製開発の取り組み

Amazon Personalize Prototyping Camp 自習資料

Trending Articles