Pensieve

1年前发布 23 0 0

Pensieve是一个隐私保护的被动记录项目，它可以自动记录屏幕内容，构建智能索引，并提供便捷的网页界面来检索历史记录。这个项目受到了Rewind和Windows Recall的启发，但与它们不同，Pensieve允许用户完全控制自己的数据，避免了数据传输到不受信任的数据中心。Pensieve的主要优点包括简单安装、完整的数据控制、全文和...

收录时间：

2025-05-29

打开网站手机查看

数据分析 # openai api # 全文搜索 # 向量搜索 # 屏幕记录 # 数据控制 # 机器学习 # 隐私保护

Pensieve

Pensieve

Pensieve是一个隐私保护的被动记录项目，它可以自动记录屏幕内容，构建智能索引，并提供便捷的网页界面来检索历史记录。这个项目受到了Rewind和Windows Recall的启发，但与它们不同，Pensieve允许用户完全控制自己的数据，避免了数据传输到不受信任的数据中心。Pensieve的主要优点包括简单安装、完整的数据控制、全文和向量搜索支持、与Ollama集成、兼容任何OpenAI API模型、支持Mac和Windows（Linux支持正在开发中）以及通过插件扩展功能。

数据统计

相关导航

awesome-LLM-resourses

awesome-LLM-resourses是一个汇总了全球大语言模型（LLM）资源的平台，提供了从数据获取、微调、推理、评估到实际应用等一系列资源和工具。它的重要性在于为研究人员和开发者提供了一个全面的资源库，以便于他们能够更高效地开发和优化自己的语言模型。该平台由王荣胜维护，持续更新，为LLM领域的发展提供了强有力的支持。

Data Science Agent in Colab

Data Science Agent in Colab 是 Google 推出的一款基于 Gemini 的智能工具，旨在简化数据科学工作流程。它通过自然语言描述自动生成完整的 Colab 笔记本代码，涵盖数据导入、分析和可视化等任务。该工具的主要优点是节省时间、提高效率，并且生成的代码可修改和共享。它面向数据科学家、研究人员和开发者，尤其是那些希望快速从数据中获取洞察的用户。目前该工具免费提供给符合条件的用户。

LazyGraphRAG

LazyGraphRAG是微软研究院开发的一种新型图谱增强型检索增强生成（RAG）模型，它不需要预先对源数据进行总结，从而避免了可能让一些用户和用例望而却步的前期索引成本。LazyGraphRAG在成本和质量方面具有内在的可扩展性，它通过推迟使用大型语言模型（LLM）来大幅提高答案生成的效率。该模型在本地和全局查询的性能上均展现出色，同时查询成本远低于传统的GraphRAG。LazyGraphRAG的出现，为AI系统在私有数据集上处理复杂问题提供了新的解决方案，具有重要的商业和技术价值。

Tabled

Tabled是一个用于检测和提取表格的Python库，它使用surya来识别PDF中的表格，识别行列，并能够将单元格格式化为Markdown、CSV或HTML。这个工具对于数据科学家和研究人员来说非常有用，他们经常需要从PDF文档中提取表格数据以进行进一步的分析。Tabled的主要优点包括高准确性的表格检测和提取能力，支持多种输出格式，以及易于使用的命令行界面。此外，它还提供了一个交互式的APP，允许用户直观地尝试在图像或PDF文件上使用Tabled。

Arthur Engine

Arthur Engine 是一个旨在监控和治理 AI/ML 工作负载的工具，利用流行的开源技术和框架。该产品的企业版提供更好的性能和额外功能，如自定义的企业级防护机制和指标，旨在最大化 AI 对组织的潜力。它能够有效评估和优化模型，确保数据安全与合规。

ProactiveAgent

ProactiveAgent是一个基于大型语言模型（LLM）的主动式代理项目，旨在构建一个能够预测用户需求并主动提供帮助的智能代理。该项目通过数据收集和生成管道、自动评估器和训练代理来实现这一目标。ProactiveAgent的主要优点包括环境感知、协助标注、动态数据生成和构建管道，其奖励模型在测试集上达到了0.918的F1分数，显示出良好的性能。该产品背景信息显示，它适用于编程、写作和日常生活场景，并且遵循Apache License 2.0协议。

vectrix-graphs

vectrix-graphs 是一个强大的图形库，专注于多模型嵌入的可视化。它支持多种机器学习模型和数据类型，能够将复杂的数据结构以直观的图形形式展现出来。该库的主要优点在于其灵活性和扩展性，可以轻松集成到现有的数据科学工作流程中。vectrix-ai 团队开发了这个库，旨在帮助研究人员和开发者更好地理解和分析模型的嵌入结果。作为一个开源项目，它在 GitHub 上提供免费使用，适合各种规模的项目和团队。

DataChain

DataChain是一个现代的Python数据框库，专为人工智能设计。它旨在将非结构化数据组织成数据集，并在本地机器上大规模处理数据。DataChain不抽象或隐藏AI模型和API调用，而是帮助将它们集成到后现代数据堆栈中。该产品以其高效性、易用性和强大的数据处理能力为主要优点，支持多种数据存储和处理方式，包括图像、视频、文本等多种数据类型，并且能够与PyTorch和TensorFlow等深度学习框架无缝对接。DataChain是开源的，遵循Apache-2.0许可协议，免费供用户使用。

暂无评论

您必须登录才能参与评论！

立即登录

none

暂无评论...