見出し画像

9/9 The 4th AI Alliance Meetup @ The Unstructured Data Meetupへ参加してきました

9/9 The 4th AI Alliance Meetup @ The Unstructured Data Meetupへ参加してきました

対象者:The 4th AI Alliance Meetup @ The Unstructured Data Meetup
開催日時:2024年9月9日 17:30〜@Github

技術講演概要:

  1. 半導体製造の問題解決とエージェントAIの活用
     Aitomaticが開発したオープンソースの半導体産業特化型大規模言語モデル「SemiKong」と「OpenSSA」という神経シンボリックエンジンを使用し、半導体製造プロセスの加速に向けたAIアドバイザーの構築方法を紹介します。

  2. 特定分野におけるLLMの安全性と整合性評価
     Hydrox AIがIBMと共同で進めるプロジェクトを紹介。医療や金融などの高リスク分野において、LLMの安全性や性能を評価し、実証実験を通じてその有用性を検証します。

  3. Llama 3.1の紹介
     MetaによるLlama 3.1モデルの最新情報を共有。オープンアプローチの利点や、Llamaエコシステムの将来計画についても触れられます。

  4. 材料と化学分野におけるAIワーキンググループの活動
     IBMのジェド・ピテラによる短いプレゼン。AI Allianceによる材料と化学分野でのオープンソース開発とその利点を紹介します。


講演タイトル:The AI Allianceの紹介とベクトルデータベースの活用事例

課題に対して提供するソリューション:

  • 課題:

    • AIや機械学習を用いた大量のデータ処理や検索、特にベクトルデータ(例: 画像やテキストの高次元データ)の管理や検索は、従来の手法では困難。

    • 大規模なAIモデルやジェネレーティブAIの活用が、これまでは大手企業に限られていた。

    • AIモデルのアクセスや利用が制限され、中小企業や個人開発者が技術にアクセスしにくい状況。

    • AI関連のデータパイプラインの管理が複雑で、データセキュリティや継続的な監視も必要。

  • ソリューション:

    • ベクトルデータを効率的に管理・検索するための「ベクトルデータベース」。

    • このベクトルデータベースは、AIモデルが生成するデータを高速かつ精度高く扱うことができ、チャットボットや画像検索のようなアプリケーションに利用。

    • 個人開発者や中小企業でも大規模なAIモデルを扱えるように技術の「民主化」を推進。

    • データパイプラインの構築・監視、セキュリティ、データアクセスの管理といった包括的なデータ管理ソリューションを提供。

    • 開発者コミュニティの形成を促進し、コラボレーションを推奨。

数値情報:

  • 29K GitHubスターを獲得したオープンソースプロジェクト。

  • 18M ドル以上の資金調達を達成。

  • 100人以上の大規模なチームのみならず、1人の開発者でもAI技術にアクセス可能。

  • ベクトルデータベースは多くのアプリケーションで利用されており、環境の急速な採用が進行中。

キーワード:

  • AI Alliance

  • ベクトルデータベース

  • ベクトル検索

  • データパイプライン

  • データセキュリティ

  • ジェネレーティブAI

  • 機械学習モデル

  • 技術の民主化

  • オープンソース

  • 開発者コミュニティ


講演タイトル: AI Allianceの取り組みとオープンソースAIの未来

提供するソリューションと課題

  • オープンソースAIの推進: 大企業やスタートアップが安全で信頼性のあるAIモデルを構築しやすくする。

  • データクリーニング: データのクリーニングにかかるコストを削減するためのオープンソースのモジュール群を提供。IBMとの協力で大規模なデータ処理が可能なパイプラインを開発中。

  • ハードウェアとAIモデルの統合: モデルとハードウェアの効率的な連携を促進し、多様な選択肢を提供する。

  • 教育と信頼性、安全性の確保: AIモデルの安全な利用と、教育を通じた広範なAI技術の普及を目指す。

  • イベントとワークショップの開催: ベイエリアを中心に複数のイベントやワークショップを主催し、オープンソースAIの普及に努める。

  • 法規制への対応: カリフォルニア州で進行中の法規制がオープンソースAIの利用に与える影響に関する取り組み。

企業規模・参加者数

  • 120社以上: 大企業からスタートアップまでが参加しており、MetaやIBMを含む多様な企業が名を連ねる。

  • 多岐にわたる業種: 大学や研究機関、AIエンジニア以外の幅広い職業層も参加可能。

キーワード

  • オープンソースAI

  • データクリーニング

  • 安全性・信頼性

  • ハードウェアとの連携

  • 教育

  • 基盤モデル

  • イベント・ワークショップ

  • カリフォルニア州の法規制

  • 大規模データ処理

  • AIエンジニア

  • オープンソースモジュール


講演タイトル:「半導体製造業におけるドメイン特化型AIの役割と展望」

課題とソリューション

  • 課題:

    1. 専門家不足:半導体製造業界は急成長しているが、20年以上の経験を持つ専門家が不足している。

    2. 高度な知識と精度:半導体製造には物理的・化学的な知識が必要で、非常に高い精度が要求される。

    3. 知識の共有と継承:多くの企業では、専門家の知識が体系的に記録されておらず、退職時に多くの知識が失われるリスクがある。

  • ソリューション:

    1. Semifongモデル:半導体製造に特化したオープンソースのAIモデル「Semifong」を開発。これはLlama 3に基づいており、産業特有の知識でファインチューニングされている。

    2. 自動化と知識のスケーリング:AIエージェントが専門家の知識をスケールし、企業固有の知識を組み込んで問題解決を支援する。

    3. 実用的なアプリケーション:このAIモデルは、化学的機械研磨やドライエッチングといったプロセスに関するアドバイスを提供し、現場での意思決定を支援。

要約(数値を含む)

  • 米国の半導体製造能力は、2032年までに3倍になると予測されている。

  • 日本は過去1年で250億ドルを半導体製造業に投資している。

  • 半導体製造業は専門家不足に直面しており、AIがそのギャップを埋める重要な役割を果たす。

  • Semifongは、半導体製造業に特化した最初のオープンソースAIモデルであり、企業の独自装置やプロセスパラメータに基づくカスタマイズが可能。

  • 半導体製造に関する専門知識を持たない新しいエンジニアでも、AIエージェントを活用することで問題解決が可能。

キーワード

  • 半導体製造

  • ドメイン特化型AI

  • 専門家不足

  • 知識のスケーリング

  • AIエージェント

  • Semifong

  • オープンソース

  • Llama 3

  • 化学的機械研磨(CMP)

  • ドライエッチング

  • 専門知識の継承

  • 製造プロセス

  • 日本の投資

  • 米国の半導体拡張


講演タイトル: AIモデルの安全性とセキュリティに関する評価フレームワークの提案

課題:

  1. 信頼できるAIモデルの選定の難しさ

    • どのモデルが長期的に信頼できるかを判断する基準が不十分。

    • モデルのベンチマークや評価ツールが少ない、または更新頻度が低い。

  2. セキュリティとプライバシーの懸念

    • AIモデルがサイバー攻撃やデータ漏洩に対して脆弱。

    • 特定のドメインにおけるプライバシー保護が十分でない。

  3. 効率性と生産性の向上

    • 多くの業界でAIを導入する際、コスト削減と生産性向上が求められているが、そのための適切なツールが不足している。

ソリューション:

  1. 包括的な評価フレームワーク

    • AISやIBMと協力し、AIモデルを評価するためのフレームワークを開発。

    • ベンチマークを提供し、各業界に適したモデルを選定可能にする。

    • 現在20以上の攻撃シナリオ30以上のコンテンツカテゴリーに対応。

  2. ドメイン専門家の活用

    • 医療、教育、銀行などの特定分野の専門家の意見を反映し、モデルの評価精度を高める。

    • 医療分野では、診断支援やプライバシー保護に注力。

  3. セキュリティと精度の両立

    • モデルがサイバー攻撃に対して脆弱でないことを確認する攻撃評価ツールを提供。

    • 機械学習モデルの精度を高く保つためのアプローチを導入し、業界全体での信頼性を確保。

  4. ベンチマークの更新と拡張

    • 革新的なテスト手法を導入し、既存の静的テストセットの問題点を改善。

    • モデルのパフォーマンスを検証し、各ドメインでの適用可能性を確認する。

要約:

  • 講演では、AIモデルの安全性、精度、セキュリティに関する評価フレームワークを提案。

  • モデルの選定や運用における信頼性を高めるためのベンチマークとツールを提供。

  • 医療や教育などのドメインに特化したサポートを行い、専門家の意見を反映させることでモデルの精度向上を図る。

  • 現在、20以上の攻撃シナリオ30以上のコンテンツカテゴリーに対応したツールを開発中。

  • フレームワークは今後も拡張され、さらに多くの業界やユースケースに対応予定。

キーワード:

  • AIモデル評価

  • セキュリティ

  • プライバシー

  • ベンチマーク

  • 攻撃シナリオ

  • ドメイン専門家

  • 医療分野

  • 教育分野

  • 生産性向上

  • 包括的フレームワーク

  • IBM

  • AIS


講演タイトル: Llamaモデルの急速な成長とオープンソースAIの未来

課題とソリューション:

  1. 課題1: AIの開発におけるコストと技術リソースの集中

    • ソリューション: Metaは、AIモデル「Llama」をオープンソース化することで、企業や開発者が自由にモデルを利用、カスタマイズ、改良できる環境を提供。これにより、技術リソースの民主化とイノベーションの加速が可能になる。

  2. 課題2: 商用AIモデルの制約とデータセキュリティの懸念

    • ソリューション: Llamaはオープンソースであり、企業は自社データを外部に提供せずに独自のモデルをファインチューニングし、運用できる。これにより、データセキュリティを保ちながら高性能AIを活用できる。

  3. 課題3: AIモデルの利用範囲と効率性の制限

    • ソリューション: MetaはLlama 3.1で128kコンテキストウィンドウ、多言語対応、長文テキストの要約など、様々な新機能を提供し、より多用途かつ効率的なAIの運用を実現している。

要約(数値を含む箇条書き):

  • Llamaモデルの成長: 2023年のローンチ以来、Llamaモデルは350億回以上ダウンロードされ、商用利用も可能に。

  • Llama 3.1: 2024年7月にリリースされ、128kコンテキストウィンドウ8言語対応長文テキスト要約などの機能を搭載。

  • Llama 4.05bモデル: 現在最も大きなオープンソースモデルで、AIモデルの効率的な利用を可能にする。

  • パートナーシップ: AWS、IBM、Dellなど、世界中の主要企業と提携し、Llamaを多様な産業向けに提供。

  • 成功事例: Shopify、DoorDash、Goldman SachsなどがLlamaを活用し、業務効率の改善を実現。

  • オープンソースの利点: 開発者や企業がモデルを自由にカスタマイズできることで、コスト削減と技術革新を加速。

キーワード:

  • Llamaモデル

  • オープンソースAI

  • Meta

  • コード生成

  • 商用利用

  • コンテキストウィンドウ

  • 多言語対応

  • ファインチューニング

  • パートナーシップ

  • データセキュリティ

  • 人工知能 (AI)

  • イノベーション

  • 安全性


講演タイトル:AI Allianceによる材料データの活用とモデル開発

課題とソリューション:

  • 課題:

    1. データの多様性と不規則性に対応する標準化が不足している

    2. 単一の大規模モデルが多様なデータに適応しづらい

    3. マルチモダリティ(複数のデータ形式)の融合と整合性を確保することが難しい

    4. ベンチマークの不足と産業界からのフィードバックを反映したモデル改善が必要

    5. データ収集・クリーニングのコストが高い

  • ソリューション:

    1. モデルアーキテクチャの改善: 単一の大規模モデルに依存せず、モダリティごとにモデルを開発し、それらを融合・整合する技術を開発

    2. AIモデルの提供: IBMが開発したトランスフォーマーモデル(大規模だが材料データに適応した構造)を導入し、分子ベンチマークで最先端のパフォーマンスを実現

    3. データベンチマークの整備: 特にマルチモダリティやクロスモーダルテストに対応したベンチマークの整備

    4. 産業界からのフィードバック収集: モデルの実用化に向けて産業界のニーズを反映したモデル改善と適応

    5. データの収集・クリーニング支援: データの権利・ライセンス確認、クリーニングのサポートを提供することで、モデル訓練のコスト削減を支援

数値:

  • モデルの規模: IBMのトランスフォーマーモデルは「大規模だが、極端に巨大ではない」スケールで材料データに適応

  • 月次ミーティングの開始: 毎月開催され、最初のミーティングは午前7時に開催

  • データクリーニングのコスト: モデル訓練の計算コスト以上に、データの収集とクリーニングが高コストである

キーワード:

  • AIアライアンス

  • 材料データ

  • マルチモダリティ

  • モデルアーキテクチャ

  • トランスフォーマーモデル

  • ベンチマーク

  • データクリーニング

  • 産業界フィードバック

  • 分子特性

  • 安全性

  • 持続可能性

  • コスト



ではまた!

いいなと思ったら応援しよう!