多機能なcontent chunkingツール集

提供元 VoxDeck - 視覚革命をリードするAIプレゼンテーションメーカー



VoxDeck - 視覚革命をリードするAIプレゼンテーションメーカー





AIニュース

ログイン

content chunking

Crawlr
CrawlrはGPTを活用したAI搭載のウェブクローラーで、ウェブサイトのコンテンツを抽出、要約、インデックス化します。

0


0
AIを訪れる
Crawlrとは？
CrawlrはオープンソースのCLI AIエージェントで、ウェブ情報を構造化されたナレッジベースに効率的に取り込むプロセスを合理化します。OpenAIのGPT-3.5/4モデルを活用し、指定されたURLをクロールして生HTMLを意味のあるテキストにクリーンアップおよび分割し、簡潔な要約を生成し、効率的なセマンティック検索のためのベクトル埋め込みを作成します。クロール深度やドメインフィルター、チャンクサイズの設定に対応し、ユーザーがプロジェクトのニーズに合わせて取り込みパイプラインをカスタマイズ可能です。リンク探索とコンテンツ処理を自動化することで、手動のデータ収集を削減し、FAQ、チャットボット、研究アーカイブの作成を高速化し、PineconeやWeaviate、ローカルのSQLiteなどのベクトルデータベースとシームレスに連携します。モジュール式の設計により、カスタムパーサや埋め込み提供者の拡張も容易です。
Crawlr コア機能

リンクの自動発見とクロール

HTMLコンテンツのクリーニングとチャンク化

GPTベースのテキスト要約

ベクトル埋め込みの生成

クロール深度とフィルターの設定可能

Pinecone、Weaviate、SQLiteとの連携
DocGPT
DocGPTは、GPTを活用してPDFからの質問に回答するインタラクティブなドキュメントQ&Aエージェントです。

0


0
AIを訪れる
DocGPTとは？
DocGPTは、シームレスな会話インターフェースを提供することで、ドキュメントからの情報抽出とQ&Aを簡素化するように設計されています。ユーザーはPDF、Word、PowerPoint形式のドキュメントをアップロードし、テキストパーサーを使って処理します。コンテンツはチャンク化され、OpenAIの埋め込みモデルを用いて埋め込まれ、FAISSやPineconeのようなベクターデータベースに保存されます。ユーザーが問い合わせを送信すると、DocGPTは類似性検索によって最も関連性の高いテキストチャンクを取得し、ChatGPTを利用して正確でコンテキストに則した回答を生成します。インタラクティブチャット、ドキュメントの要約、ドメイン特化のプロンプトのカスタマイズが可能で、PythonとStreamlitのUIを用いて簡単に展開・拡張できます。
DocGPT コア機能



フィーチャー

content chunking

Crawlr

DocGPT