PyGPT to otwarto-żródłowy, kompleksowy asystent AI dla komputerów stacjonarnych, umożliwiający bezpośrednią interakcję z modelami językowymi. Oferuje czat, analizę i generowanie obrazu, narzędzia, wykonywanie poleceń, sterowanie głosem i wiele więcej przydatnych funkcji.

Dzięki integracji z LangChain i LlamaIndex, aplikacja PyGPT obsługuje również alternatywne modele AI, takie jak te dostępne na HuggingFace czy lokalnie dostępne modele (jak Llama 3 czy Mistral) oraz Google Gemini i Anthropic Claude..

W programie znajdziemy ponad 10 różnych trybów działania. W tym chat, asystent, generowanie obrazów przy użyciu DALL-E 3 a także analizę obrazu za pomocą wizji w GPT-4 Vision i GPT4-o. Program umożliwia pracę z plikami, generowanie i uruchamianie kodu Pythona, wykonywanie poleceń systemowych i zarządzanie transferami plików. Może także przeszukiwać internet poprzez Google i Microsoft Bing i wykonywań wiele innych zadań.

W zakresie interakcji głosowych, Program oferuje syntezę mowy przy użyciu Microsoft Azure, Google, Eleven Labs i OpenAI Text-To-Speech. Znajdziemy w nim również funkcje rozpoznawania mowy oferowane przez OpenAI Whisper, Google i Bing, co pozwala mu na rozumienie poleceń głosowych i przekształcanie audio w tekst.

PyGPT możemy rozszerzać dzięki obsłudze dla wtyczek, co pozwala na rozbudowę aplikacji o nowe funkcje. Jego wielofunkcyjność sprawia, że jest wszechstronnym narzędziem do różnych operacji wspomaganych przez AI, w tym interakcji tekstowych, automatyzacji systemu, codziennej pomocy, analizy wizualnej, przetwarzania języka naturalnego, generowania kodu i tworzenia obrazów.

Lista popularnych funkcji w programie PyGPT:

  • Osobisty Asystent AI dla Linux, Windows i Mac, napisany w Pythonie.
  • Działa podobnie do ChatGPT, ale lokalnie (na komputerze stacjonarnym).
  • 12 trybów działania: Chat, Vision, Research (Perplexity), Completion, Assistant, Generowanie obrazów, LangChain, Chat z plikami, Chat z audio, Eksperci, Tryb autonomiczny i Agenci.
  • Obsługuje wiele modeli: o1, o3, GPT-4o, GPT-4, GPT-3.5, i dowolny model dostępny przez LangChain, LlamaIndex i Ollama jak Llama 3, Mistral, Google Gemini, Anthropic Claude, DeepSeek, Bielik, itp.
  • Chat z własnymi plikami: zintegrowane wsparcie LlamaIndex: czatowanie z danymi takimi jak: txt, pdf, csv, html, md, docx, json, epub, xlsx, xml, strony internetowe, Google, GitHub, wideo/audio, obrazy i inne typy danych, lub użycie historii konwersacji jako dodatkowego kontekstu dostarczanego do modelu.
  • Wbudowane wsparcie baz danych wektorowych i automatyczny embedding plików i danych.
  • Dołączone funkcje wsparcia dla osób z niepełnosprawnościami: konfigurowalne skróty klawiszowe, kontrola głosowa i translacja działań na ekranie do dźwięku za pomocą syntezy mowy.
  • Obsługuje i przechowuje pełen kontekst rozmów (krótkotrwała i długotrwała pamięć).
  • Dostęp do Internetu przez Google i Microsoft Bing.
  • Synteza mowy za pomocą Microsoft Azure, Google, Eleven Labs i OpenAI Text-To-Speech.
  • Rozpoznawanie mowy za pomocą OpenAI Whisper, Google i Microsoft Speech Recognition.
  • Przechwytywanie wideo z kamery w czasie rzeczywistym w trybie Vision.
  • Analiza obrazów za pomocą GPT-4 Vision i GPT-4o.
  • Zintegrowane wsparcie LangChain (możesz połączyć się z dowolnym modelem językowym, np. na HuggingFace).
  • Zintegrowany kalendarz, notatki dzienne i wyszukiwanie w kontekstach według wybranej daty.
  • Wykonywanie narzędzi i poleceń (za pomocą wtyczek: dostęp do lokalnego systemu plików, Interpreter kodu Python, wykonywanie poleceń systemowych i więcej).
  • Tworzenie i wykonywanie własnych poleceń.
  • Zawiera crontab / harmonogram zadań.
  • Zarządza plikami i załącznikami z opcjami przesyłania, pobierania i organizowania.
  • Historia kontekstu z możliwością powrotu do poprzednich kontekstów (pamięć długotrwała).
  • Pozwala łatwo zarządzać promptami za pomocą wygodnych edytowalnych presetów.
  • Oferuje intuicyjną obsługę i interfejs.
  • Zawiera notatnik.
  • Zawiera prosty edytor rysunków / narzędzie malarskie.
  • Obsługuje wiele języków.
  • Nie wymaga wcześniejszej znajomości korzystania z modeli AI.
  • Upraszcza generowanie obrazów przy użyciu DALL-E.
  • W pełni konfigurowalny.
  • Wsparcie dla motywów.
  • Pokolorowanie składni kodu w czasie rzeczywistym.
  • Wsparcie dla wtyczek.
  • Wbudowane obliczanie wykorzystania tokenów.
  • Posiada potencjał do wspierania przyszłych modeli OpenAI.
  • Jest open source; kod źródłowy jest dostępny na GitHub.
  • Wykorzystuje własny klucz API użytkownika.