PyGPT to otwarto-żródłowy, kompleksowy asystent AI dla komputerów stacjonarnych, umożliwiający bezpośrednią interakcję z modelami językowymi. Oferuje czat, analizę i generowanie obrazu, narzędzia, wykonywanie poleceń, sterowanie głosem i wiele więcej przydatnych funkcji.
Dzięki integracji z LangChain i LlamaIndex, aplikacja PyGPT obsługuje również alternatywne modele AI, takie jak te dostępne na HuggingFace czy lokalnie dostępne modele (jak Llama 3 czy Mistral) oraz Google Gemini i Anthropic Claude..
W programie znajdziemy ponad 10 różnych trybów działania. W tym chat, asystent, generowanie obrazów przy użyciu DALL-E 3 a także analizę obrazu za pomocą wizji w GPT-4 Vision i GPT4-o. Program umożliwia pracę z plikami, generowanie i uruchamianie kodu Pythona, wykonywanie poleceń systemowych i zarządzanie transferami plików. Może także przeszukiwać internet poprzez Google i Microsoft Bing i wykonywań wiele innych zadań.
W zakresie interakcji głosowych, Program oferuje syntezę mowy przy użyciu Microsoft Azure, Google, Eleven Labs i OpenAI Text-To-Speech. Znajdziemy w nim również funkcje rozpoznawania mowy oferowane przez OpenAI Whisper, Google i Bing, co pozwala mu na rozumienie poleceń głosowych i przekształcanie audio w tekst.
PyGPT możemy rozszerzać dzięki obsłudze dla wtyczek, co pozwala na rozbudowę aplikacji o nowe funkcje. Jego wielofunkcyjność sprawia, że jest wszechstronnym narzędziem do różnych operacji wspomaganych przez AI, w tym interakcji tekstowych, automatyzacji systemu, codziennej pomocy, analizy wizualnej, przetwarzania języka naturalnego, generowania kodu i tworzenia obrazów.
Lista popularnych funkcji w programie PyGPT:
- Osobisty Asystent AI dla Linux, Windows i Mac, napisany w Pythonie.
- Działa podobnie do ChatGPT, ale lokalnie (na komputerze stacjonarnym).
- 12 trybów działania: Chat, Vision, Research (Perplexity), Completion, Assistant, Generowanie obrazów, LangChain, Chat z plikami, Chat z audio, Eksperci, Tryb autonomiczny i Agenci.
- Obsługuje wiele modeli: o1, o3, GPT-4o, GPT-4, GPT-3.5, i dowolny model dostępny przez LangChain, LlamaIndex i Ollama jak Llama 3, Mistral, Google Gemini, Anthropic Claude, DeepSeek, Bielik, itp.
- Chat z własnymi plikami: zintegrowane wsparcie LlamaIndex: czatowanie z danymi takimi jak: txt, pdf, csv, html, md, docx, json, epub, xlsx, xml, strony internetowe, Google, GitHub, wideo/audio, obrazy i inne typy danych, lub użycie historii konwersacji jako dodatkowego kontekstu dostarczanego do modelu.
- Wbudowane wsparcie baz danych wektorowych i automatyczny embedding plików i danych.
- Dołączone funkcje wsparcia dla osób z niepełnosprawnościami: konfigurowalne skróty klawiszowe, kontrola głosowa i translacja działań na ekranie do dźwięku za pomocą syntezy mowy.
- Obsługuje i przechowuje pełen kontekst rozmów (krótkotrwała i długotrwała pamięć).
- Dostęp do Internetu przez Google i Microsoft Bing.
- Synteza mowy za pomocą Microsoft Azure, Google, Eleven Labs i OpenAI Text-To-Speech.
- Rozpoznawanie mowy za pomocą OpenAI Whisper, Google i Microsoft Speech Recognition.
- Przechwytywanie wideo z kamery w czasie rzeczywistym w trybie Vision.
- Analiza obrazów za pomocą GPT-4 Vision i GPT-4o.
- Zintegrowane wsparcie LangChain (możesz połączyć się z dowolnym modelem językowym, np. na HuggingFace).
- Zintegrowany kalendarz, notatki dzienne i wyszukiwanie w kontekstach według wybranej daty.
- Wykonywanie narzędzi i poleceń (za pomocą wtyczek: dostęp do lokalnego systemu plików, Interpreter kodu Python, wykonywanie poleceń systemowych i więcej).
- Tworzenie i wykonywanie własnych poleceń.
- Zawiera crontab / harmonogram zadań.
- Zarządza plikami i załącznikami z opcjami przesyłania, pobierania i organizowania.
- Historia kontekstu z możliwością powrotu do poprzednich kontekstów (pamięć długotrwała).
- Pozwala łatwo zarządzać promptami za pomocą wygodnych edytowalnych presetów.
- Oferuje intuicyjną obsługę i interfejs.
- Zawiera notatnik.
- Zawiera prosty edytor rysunków / narzędzie malarskie.
- Obsługuje wiele języków.
- Nie wymaga wcześniejszej znajomości korzystania z modeli AI.
- Upraszcza generowanie obrazów przy użyciu DALL-E.
- W pełni konfigurowalny.
- Wsparcie dla motywów.
- Pokolorowanie składni kodu w czasie rzeczywistym.
- Wsparcie dla wtyczek.
- Wbudowane obliczanie wykorzystania tokenów.
- Posiada potencjał do wspierania przyszłych modeli OpenAI.
- Jest open source; kod źródłowy jest dostępny na GitHub.
- Wykorzystuje własny klucz API użytkownika.
