• 方案介紹
  • 附件下載
  • 相關推薦
申請入駐 產(chǎn)業(yè)圖譜

具有語音功能的機器,可閱讀書籍并回答問題

2020/09/24
384
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

techable_machine_trJoUnilFN.jpg

共3個文件

在這個項目中,我構建了啟用語音的可教機器,該機器可以掃描書頁或任何文本源中的文本并將其轉(zhuǎn)換為上下文,用戶可以提出與該上下文有關的問題,并且該機器可以僅使用上下文進行回答。我一直想制造一種易于部署且可以輕松針對給定上下文進行培訓而無需任何互聯(lián)網(wǎng)連接的邊緣設備。

硬件部件:

軟件應用程序和在線服務:

  • 樹莓派Raspbian
  • 英特爾OpenVINO工具包
  • Tesseract OCR
  • 深度語音

應用程序中使用的機器學習模型

使用了三種機器學習模型:

1. Tesseract OCR(基于LSTM的模型)

Tesseract是一種OCR引擎,支持unicode,并具有開箱即用地識別100多種語言的能力??梢杂柧毸R別其他語言。

2. DeepSpeech(TensorFlow Lite型號)

DeepSpeech是一個開源的語音轉(zhuǎn)文本引擎,使用由機器學習技術訓練的模型,該模型由Google的TensorFlow簡化實施。

3. BERT

BERT是一種語言表示模型,代表變壓器的雙向編碼器表示。預訓練的BERT模型僅需增加一個輸出層即可進行微調(diào),以創(chuàng)建適用于各種任務(例如問題解答和語言推論)的最新模型,而無需進行大量針對特定任務的體系結構修改。

前兩個模型在Raspberry Pi 4上運行,最后一個模型在使用OpenVINO Toolkit的Intel Neural Compute Stick 2上運行。

  • techable_machine_trJoUnilFN.jpg
    下載
    描述:原理圖截圖
  • TeachableMachine-master.zip
    下載
    描述:源碼
  • 項目詳情.pdf
    下載
    描述:項目細節(jié)
英特爾

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關推薦