OpenAIglasses_for_Navigation by AI-FanGe

AI navigation and assistance system for the visually impaired

Created 4 months ago

1,121 stars

Top 34.1% on SourcePulse

Project Summary

Summary

AI-FanGe/OpenAIglasses_for_Navigation is an open-source framework for AI-driven assistive navigation and interaction, designed for visually impaired users. It integrates computer vision and NLP to provide real-time guidance for navigation, object recognition, and environmental awareness, aiming to enhance independence and safety.

How It Works

The system uses a FastAPI backend to process real-time video/audio streams. It leverages deep learning models like YOLOv8 for segmentation (blind paths, lanes) and YOLO-E for open-vocabulary object search, alongside MediaPipe for hand tracking. Optical flow (Lucas-Kanade) stabilizes input, while Aliyun DashScope provides ASR and multimodal chat (Qwen-Omni-Turbo) for voice interaction. Feedback is multimodal: visual annotations, voice, and hand guidance.

Quick Start & Requirements

Installation: Clone repo, create Python 3.9-3.11 venv, pip install -r requirements.txt. GPU acceleration requires CUDA 11.8+.
Prerequisites:
- Hardware: Dev/Server: Intel i5+ CPU, NVIDIA GPU (CUDA 11.8+), 8GB+ RAM. Optional client: ESP32-CAM, mic, speakers.
- Software: Python 3.9-3.11, CUDA 11.8+, modern browser.
- API Keys: Mandatory Aliyun DashScope API key.
Setup: Requires downloading models (some links missing), configuring API keys (.env), and running python app_main.py.
Resources: Quick-start guide in README.

Highlighted Details

Navigation Suite: Blind path detection/guidance, obstacle avoidance, turn alerts, crossing assistance with traffic light recognition.
Object Interaction: Voice-commanded item search, real-time tracking, hand guidance, grab confirmation.
Multimodal AI: Real-time ASR and advanced multimodal dialogue via Aliyun DashScope.
Web Interface: Live video stream with annotations, status panels, and IMU 3D pose visualization.

Maintenance & Community

The project is explicitly for "exchange and learning only" and not production-ready. The README provides no details on active maintenance, contributors, or community channels (e.g., Discord, Slack).

Licensing & Compatibility

Released under the permissive MIT License, allowing broad usage, including commercial applications and integration into closed-source projects, with standard attribution requirements.

OpenAIglasses_for_Navigation by AI-FanGe

Explore Similar Projects

gemini-cursor by 13point5

llama-assistant by nrl-ai

MiniCPM-V-CookBook by OpenSQZ

turbometa-rayban-ai by Turbo1123

Vocalis by Lex-au

natively-cluely-ai-assistant by evinjohnn

ai_virtual_mate_comm by MewCo-AI

Multimodal-GPT by open-mmlab

mini-omni2 by gpt-omni

VisionClaw by sseanliu

AI0x0.com by mushan0x0

self-operating-computer by OthersideAI