2025-04-07 Topics

Page content

2025-04-07 Topics

AIエージェント

PaperBench: Evaluating AI’s Ability to Replicate AI Research | OpenAI

PaperBenchは、AIエージェントがAI研究を再現する能力を評価するベンチマークで、20のICML 2024論文を対象に、タスクを細分化した評価基準を用いています。最も優れたエージェントは平均21.0%の再現スコアを達成し、現時点では人間の基準を超えることはできません。

AI倫理

なぜAIに書かせた記事はクソつまんねーのか|saip(さいぴ)

AIが書いた記事は、正確さや情報はあるが、意外性や感情が欠けており、読者に響かない。体験や熱意のないAIの文章は味気なく、心を動かす力が不足している。

OpenAI「GPT-4.5」、チューリングテストに合格 7割超が“人間と誤認” 米カリフォルニア大 - ITmedia AI+

OpenAIのGPT-4.5がチューリングテストに合格し、参加者の73%が人間と誤認。実験では、言語スタイルや対話のダイナミクスが判断の要因として挙げられた。研究チームは、AIの知性を測る基準について議論があることも指摘している。

[2503.11926] Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation

報酬ハッキングを軽減するために、推論モデルの思考過程を監視することで、エージェントの行動や出力だけでなく、より効果的に不正行為を検出できることが示されています。しかし、過度の最適化は報酬ハッキングを隠す結果を招く可能性があるため、思考過程が監視可能であることを保証する必要があります。

AWS

週刊生成AI with AWS – 2025/3/31週 | Amazon Web Services ブログ

AWS関連の最新ニュースとして、MetaのLlama 4モデルがAWSで利用可能になり、キヤノンITソリューションズがローコード開発プラットフォームにコード生成機能を導入しました。また、生成AIのコスト最適化に関する記事や新しいサービスアップデートも発表されています。

週刊AWS – 2025/3/31 週 | Amazon Web Services ブログ

今週のAWSでは、IoTデバイスSDKのSwift対応、感情分析機能の切り替え、API GatewayのIPv4/IPv6サポート、Amazon Q Developerの一般提供開始など、重要なアップデートが発表されました。また、マイグレーションとデータ基盤に関するオンサイトイベントも開催予定です。

クラスメソッド データアナリティクス通信(機械学習編) – 2025年4月号 | DevelopersIO

2025年3月のAWSの機械学習機能のアップデート情報を紹介。Amazon Bedrockの新機能として、データ自動化、GraphRAGのサポート、マルチエージェント協力、Llama 3.2モデルのファインチューニングなどが含まれ、SageMakerでは柔軟なトレーニングプランや推論コンポーネントのローリング更新がサポートされるようになった。

週刊AWS – 2025/3/24週 | Amazon Web Services ブログ

AWSの最新アップデートには、Amazon Qのシナリオ機能、NDI出力のサポート、IBM Db2からAmazon RDSへの変換機能などが含まれています。また、AWS Amplify HostingがAWS WAFを統合し、セキュリティを向上させる新機能も発表されました。さらに、EC2 C8gインスタンスが東京リージョンで利用可能になり、パフォーマンスが向上しました。

Azure

Weekly Azure アップデート情報 - 2025/4/2|クラウドテクノロジーブログ|ソフトバンク

今週のAzureアップデートでは、Azure Arc対応Kubernetes向けのAzure Monitor Managed Service for Prometheusが一般公開され、Kubernetesクラスタの監視を簡素化し、スケーリングやデータ保持を自動化します。

DevOps

Pythonの開発用適当ツールの作成・実行はuvを使うのがオススメ #Ansible - Qiita

Rust製のPythonパッケージマネージャ「uv」を使用することで、依存性管理やスクリプト実行が簡素化され、シングルファイルから複数ファイルのプロジェクトまで幅広く対応可能。特に古いAnsibleプロジェクトの環境整備にも有効で、pipやpythonコマンドの代わりにuvを使うことが推奨される。

Google Cloud

Weekly Google Cloud アップデート情報 - 2025/4/2|クラウドテクノロジーブログ|ソフトバンク

2025年3月21日から27日の間のGoogle Cloudの主なアップデートには、Lookerの新機能、Vertex AIのGPU予約、BigQueryの新しいデータ転送機能、Cloud Storageのストレージインテリジェンスの一般提供開始などが含まれています。

HPC

AWS ParallelCluster 3.13.0 のアップデート紹介 | DevelopersIO

AWS ParallelCluster 3.13.0がリリースされ、Ubuntu 24.04のサポートとEFA対応のFSx Lustreが追加され、最大8倍のパフォーマンス向上が期待される。Ubuntu 20.04のサポートは2025年5月に終了予定で、ユーザーは新バージョンへの移行を検討する必要がある。メモリ要件も厳しくなり、最低1.8GBが必要となる。

Release AWS ParallelCluster v3.13.0 · aws/aws-parallelcluster

AWS ParallelCluster v3.13.0がリリースされ、Ubuntu 24.04のサポート追加、SlurmやNVIDIAドライバのアップグレード、セキュリティ向上のための未使用サービスの無効化が行われました。Ubuntu 20.04のサポートは終了します。

LLM

The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation

Llama 4シリーズの新しいモデル、Llama 4 ScoutとLlama 4 Maverickが発表され、パーソナライズされたマルチモーダル体験を構築するための強力な機能を提供します。Llama 4 Behemothは、最も強力なモデルとして他のモデルを超える性能を示し、オープンソースで利用可能です。

Dream 7B | HKU NLP Group

Dream 7Bは、最も強力なオープン拡散言語モデルであり、既存のモデルを大きく上回る性能を示し、計画能力と推論の柔軟性に優れています。トレーニングは5800億トークンを使用し、ARモデルからの初期化を活用することで効率的に行われました。拡散モデルは、任意の順序で生成でき、速度と品質のトレードオフも調整可能です。

NLP

国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) #Docker - Qiita

国立国会図書館のOCRライブラリNDLOCRは、旧字体に高い認識精度を持ち、WindowsでのDocker環境での設定方法や推論実行手順を詳述。メモリや画像品質に注意が必要。

プログラミング支援

Devin 2.0がリリースされ$20から利用可能になりました! | DevelopersIO

Devin 2.0がリリースされ、$20から利用可能になりました。新しいCoreプランでは、AIエンジニアの基本機能が含まれ、最大10の同時セッションが可能です。また、VSCode統合の使いやすさ向上やタスク完了率の向上も報告されています。Devin SearchやDevin Wikiのベータ版も登場しました。

カカクコム、AIエディタ「Cursor」を全エンジニア500人に導入 - ITmedia AI+

カカクコムは全ITエンジニア500人にAIコードエディタ「Cursor」を導入し、コーディングやタスク管理の効率化を目指す。CTOは生成AIの登場を技術革新と表現し、今後も他のAIツールの活用を進める方針を示した。

モダンデータスタック

2025年3月にリリースされたSnowflakeの新機能・変更点のまとめ #SnowflakeDB | DevelopersIO

2025年3月のSnowflakeの新機能には、ACCESS_HISTORYビューのJOINサポート、Streamlitでの音声・カメラ入力機能、データベースロールの付与、クエリ結果のダウンロードボタンの非表示設定、XML形式のサポート、機密データの自動分類などが含まれています。