Revision as of 17:23, 2 September 2025

Sony MD player Sony MZ-R55.
Sony WM-F107 exhibited in Solar Biennale 2025 in Lausanne.
The DIY I-V tester made by Marc Dusseiller.

摘要

太陽能神諭隨身聽（Solar Oracle Walkman）是一個能源交易與聲音雕塑的探索。外觀參考了復古的 Sony WM-F107，而內部裝置則用於測量一片 6 × 6 公分手工製作、帶有藝術圖案的 DSSC（染料敏化太陽能電池）的 I–V 曲線，其 TiO₂ 多孔層透過氰版顯影或網版印刷製成。每一片「太陽能迷你碟」都會產生獨特的 I–V 聲紋（voiceprint），並透過 oracle（將鏈外資料安全橋接至區塊鏈的機制）傳送至智慧合約進行驗證。概念上，這台隨身聽運作如同冷錢包：每片 DSSC 是一個實體代幣，而內建的 I–V 測試器則是其讀取器。完成驗證後，隨身聽會播放生成的、語意受限的音樂；鏈上的判定會作為播放的門檻。在目前的 Max/MSP 原型中，量測到的 I–V 曲線會被分解為七個無量綱特徵 [FF, Vmpp/Voc, Impp/Isc, Rs*, Rsh*, Σκ, A*]，可選擇使用 PCA 降維，然後手動映射至 nn~ RAVE 解碼器的潛在輸入口，以達成可重現的聲音身份，而不依賴明確的語意結構。下一步，我們將記錄在不同光照下的連續 I–V 數據，並訓練 RAVE 編碼器以學習每片電池的緊湊且具魯棒性的潛在嵌入。這些嵌入會輸入至模糊提取（fuzzy extractor）流程（量化 → 輔助資料錯誤更正（ECC） → 雜湊），以導出穩定的金鑰。鏈上只會錨定該金鑰的承諾值，以維護隱私並允許驗證。若能保持向量空間的幾何關係，潛在空間中的距離將能反映光伏行為的差異，使裝置能作為一部「占卜機」，連結物質、感知與想像。

生成系統中感知進展的聲音化

感知與人工智慧都可以被理解為生成機制：它們不只是被動接收訊號，而是主動進行預測與修正。在隨身聽中，鏈上的聲紋扮演著錨點──以經驗痕跡來限制生成──而解碼器的表現力則像是召喚，在可驗證的範圍內支撐想像。依據 Stinson 的「通用機制觀」以及 Feigl 的「對應模型」，我們設計了從量測（I–V 曲線）到潛在變數（音訊嵌入）的明確橋接。這使得作品能夠被視為一項實驗：每一個聲音決策都可以追溯至能量曲線上的可測變換。

Stinson的通用機制圖表。
科學理論的邏輯經驗主義圖表。轉載自 Herbert Feigl 1970。
Stinson 和 Feigl 模型應用於目前專案結構的圖表。

實驗

太陽能神諭隨身聽主要由三個元件組成： I-V 曲線測試器具圖案的太陽能迷你碟智慧合約每片迷你碟的 I–V 曲線會被量測並上傳至部署於 Sepolia 測試網的智慧合約進行驗證。一旦其 I–V 數據通過驗證，相應的音樂就會被生成並允許由隨身聽播放。每片「太陽能迷你碟」的聲音被期望具有可重現性、生成性與語意性——如同一段具備清晰機制的生成音樂，而非完全隨機。為了讓每片太陽能迷你碟成為生成裝置，我首先假設需要設計一個雜湊運算來獲得每片太陽能玻璃的「聲紋 (V)」。雜湊運算是將輸入資料（例如數字、文字、檔案，或一組 I–V 曲線參數）送入數學函式或演算法以產生雜湊值的過程。雜湊演算法可以處理任意長度的輸入，但總是輸出固定長度的結果。它們被設計為：計算快速相同輸入必定得到相同輸出即使輸入稍有改變，輸出也會截然不同

┌───────────────────────────────────────┐
│   Solar Oracle Walkman v1 — 概覽       │
└───────────────────────────────────────┘
[光] ──▶ [具圖案的 DSSC「迷你碟」]
              │
              ▼
       [I-V 掃描／取樣]
       ESP32-S3 I-V 測試器
       （四線量測，逐步負載）
              │  生成 I–V 曲線
              ▼
       [特徵擷取，7D]
       F = [FF, Vmpp/Voc, Impp/Isc, Rs*, Rsh*, Σκ, A*]
              │
              ├───────────────────────────────┬───────────────────────────────────────────┐
              │                               │                                           │
              ▼                               ▼                                           ▼
       【聲音路徑（即時）】              【Oracle／鏈上路徑】                        【模型訓練（離線）】
        ml.scale 正規化                打包 {pubkey, cell_id, F}                       資料集：多片 DSSC I–V → 7D
              │                               │                                           │
       ml.principle (PCA)              POST /api/iv 至 Oracle API                 訓練 RAVE（或輕量替代模型）
              │                        （本地／雲端）                                       │
  映射至 RAVE nn~ 解碼器潛在輸入口         智慧合約驗證並紀錄                         匯出模型（onnx/ckpt/nn~）
              │                                │                                           │
              │                               │                                           │
       ▶ 即時聲音輸出                  回傳 tx_hash / OK|FAIL                      部署於 Max/MSP (nn~)
              │                               │                                           
              └───────────────┬───────────────┘
                              │ （狀態回饋）
                              ▼
                      [播放授權／語意閘]
                   OK → 進入「語意穩定」播放區段  
                   FAIL → 提示重新量測／重新註冊／降噪

┌──────────────────────────────────────────────────────┐
│  Solar Oracle Walkman v2（RAVE 潛在向量 z）— 概覽       │
└──────────────────────────────────────────────────────┘
[光] ──▶ [具圖案的 DSSC「迷你碟」]
              │
              ▼
       [連續 I–V 掃描]
       ESP32-S3 I-V 測試器
       （四線量測，逐步負載）
              │  生成連續 I–V 曲線
              ▼
       [RAVE 編碼器]
       以連續 I–V 數據訓練
              │
              ▼
       [潛在嵌入 z = (z1, z2, …, zn)]
              │
              ▼
       [fuzzy extractor（逐維處理）]
          對每個 zi：
             ml.scale（正規化）
             ml.principle（PCA）
          輸出：穩定化 z′ = (z′1, z′2, …, z′n)
              │
              ├───────────────────────────────┬───────────────────────────────────────────┐
              │                               │                                           │
              ▼                               ▼                                           ▼
       【聲音路徑（即時）】              【Oracle／鏈上路徑】                        【模型訓練（離線）】
        穩定化 z′ → RAVE nn~            打包 {pubkey, cell_id, z′}                  資料集：多條連續 I–V 曲線
           解碼器潛在輸入口                      │                                           │
              │                       POST /api/z′ 至 Oracle API                  訓練 RAVE（編碼器–解碼器）
         ▶ 即時聲音輸出                     （本地／雲端）                                     │
              │                       智慧合約驗證並紀錄                            匯出編碼器至 Max/MSP (nn~)
              └───────────────┬───────────────┘                                            │
                              │ （狀態回饋）                                         部署編碼器於 Max/MSP
                              ▼
                      [播放授權／語意閘]
                 OK → 進入「語意穩定」播放區段  
                 FAIL → 提示重新量測／重新註冊／降噪
(註解)
與 v1 的差異：輸入為完整連續 I–V 曲線，而非僅 7D 特徵。
RAVE 編碼器學習光照魯棒的潛在向量 z；PCA 將 z 穩定化為 z′（扮演fuzzy extractor角色）。
Oracle 僅錨定承諾（z′ 或衍生金鑰的雜湊）。
聲音引擎與 oracle 共享相同的穩定化 z′ → 保持一致身份 + 生成對應映射。

第一個原型：7-D聲紋和模糊提取I-V曲線

一個 DIY I–V 曲線測試器被連接至電腦，其量測的 16 個 I–V 曲線點會透過序列通訊傳送到 Max/MSP。I–V 曲線通常用來分析太陽能電池的特性，因此在此被視為電池的「聲紋」，尤其是那些帶有氰版與網版印刷 TiO₂ 層的 DSSC。在本研究中，I–V 曲線的形狀被拆解成七個特徵，並對每個特徵應用機器學習，讓電腦能夠「學會」其形狀。此方法預期能夠保證對光照強度的不變性，使太陽能迷你碟的音訊輸出在不同光照下依舊保持穩定再現。聲紋 V 定義為： V = [FF (填充因子), Vmpp/Voc, Impp/Isc, Rs (串聯電阻), Rsh (旁路電阻), 曲率總和, I–V 曲線面積] 注意：這些計算均為無量綱（dimensionless）。所謂無量綱特徵向量，指的是經過正規化後不再帶有物理單位（伏特、安培、歐姆）。例如透過比值 Vmpp/Voc 或 Impp/Isc，這些特徵只捕捉相對形狀或行為，而與絕對大小無關。這在比較或分類不同光照條件下的 I–V 曲線時至關重要，因為它能確保差異反映的是裝置的內在特性，而不是量測條件的變動。特徵定義（無量綱化）如下：

FF (填充因子): FF = (Vmpp * Impp) / (Voc * Isc)
Vmpp/Voc 與 Impp/Isc: 無量綱比值，捕捉最大功率點的操作位置。
Rs* 與 Rsh*（無量綱電阻估計）: 先估計在重取樣曲線上的局部斜率：; Rs ≈ -ΔV/ΔI （在 I ≈ Isc 附近）; Rsh ≈ -ΔV/ΔI （在 V ≈ Voc 附近）; 再轉換為無量綱形式：; Rs* = Rs * (Isc / Voc); Rsh* = Rsh * (Isc / Voc)
Σκ (曲率總和): 沿著 64 點重取樣 I–V 折線，累積各段角度變化：; Σκ = Σ |angle(s_i, s_{i+1})|; （直覺上：Σκ 越大，曲線「彎曲」程度越明顯）
A* (I–V 曲線面積，正規化): 定義：從 V=0 到 V=Voc 的曲線下方面積，除以 (Isc * Voc); 離散近似：; A* ≈ (Σ I[i] * ΔV[i]) / (Isc * Voc)

施惟捷製作的帶有網版印刷圖案和蜀葵染料的 DIY DSSC。
施惟捷製作的帶有藍曬圖案的 DIY DSSC。
I-V 曲線測試儀的測量結果被上傳至 Thingspeak 和本機伺服器後並在 Max/MSP 中以fetch指令取得。

在 Max/MSP 中使用 ml.scale 與 ml.principle 作為模糊提取的前處理為了讓每片太陽能迷你碟的聲音能被智慧合約穩定驗證並重現，Max/MSP 的 ml.* 函式庫是一個解決方案。 ml.scale：先將七個原始特徵正規化到 0 到 1 的範圍。 ml.principle：再進行 PCA（主成分分析），將七個值轉換至新的 7 維 PCA 空間。PCA 是一種數學方法，能將數據旋轉並壓縮到較少維度，同時保留最多變異。 ml.principle 是 Max/MSP 內實作 PCA 的物件：它會從訓練數據中學習主軸並將新的數據投影至該降維空間

機器學習過程針對原始七個特徵的max patch範例：[FF、Vmpp/Voc、Impp/Isc、Rs、Rsh、curvature_sum、area]。

RAVE 作為可信神諭空間與生成音樂引擎的介質

PCA 僅是線性降維，無法保證「不同光照下的再現性」與「二進位鍵的錯誤更正」。因此在此設計中使用 fuzzy extractor：將連續的潛在向量 z 轉換為可糾錯、可驗證的位元列，並輸出穩定金鑰 K，以滿足身份再現與上鏈需求。在 Google Colab 中訓練了一個特製的 I–V encoder（因 RAVE encoder 無法直接處理曲線資料，故以 Conv1D 架構訓練）。輸入為連續的七維聲紋 (FF、Vmpp/Voc、Impp/Isc、Rs*、Rsh*、curvature_sum、area)，輸出為與下游音訊解碼器維度對齊的潛在向量 z。訓練採用 triplet loss（同一電池相互拉近，不同電池相互拉遠），並加上 prior matching，使 z 符合解碼器的高斯先驗分布。量測雜訊與光照漂移則透過資料增強（增益縮放、小雜訊、時間抖動）處理。由於 z 連續且略帶噪聲，因此需進一步 fuzzy extraction：z 先正規化與量化，再經過帶有 helper data 的糾錯碼 (ECC) 導出穩定金鑰 K，最後計算鏈上承諾值 keccak256(K || salt)。首次註冊時，以 panel_id = keccak256("panel-id" || K) 生成化名索引用於歸檔；之後每次回報，只需重建 K′ 並計算 keccak256(K′ || salt)，合約即可自動將紀錄歸入該 panel_id，而不必上傳人工 ID。聲音 decoder 則以音樂資料獨立訓練（或直接採用現有 RAVE 解碼器），其任務僅是將 z 轉換為聲音。由於 encoder 已確保 z 的穩定性與幾何關聯，同一電池的多次量測能生成可重現的音色與動態。這屬於跨模態對映 (I–V → audio latent)：語義秩序已在 encoder 端維持，而 decoder 端的對映則完全依藝術與編曲情境決定（例如對應到 AM/FM、濾波、失真、空間參數等），目標是聽覺與音樂性，而非身份判定。整體來看，RAVE（更準確地說，是 I–V encoder 與 RAVE decoder 的組合）充當一個中介層。一方面，它建立了可驗證語義空間 (VSP)：物理 I–V 測量值透過對比學習被嵌入為聚類且分離的幾何結構，並經由 fuzzy extractor 導出金鑰 K 與鏈上承諾值。根據 Jha 等人 (2025) 的研究，語意穩定性依賴三項核心約束：重建性 (reconstruction) ——轉換後的表徵可映回來源；循環一致性 (cycle-consistency) ——往返轉換能保持意義；向量空間保存 (VSP) ——嵌入間的成對距離在映射後依然維持。另一方面，它支撐了美學生成：穩定的 z 值帶來可複製的聲音風格與敘事。哲學上，這並非將兩種媒介視為相同，而是將生成錨定於一個 oracle，使美學能在物理驗證的基底上展開。因此，RAVE 成為一層「翻譯膜」：內層維持現實世界的幾何與承諾（身份與因果），外層釋放可感知的語義與聲響（美學與表達）。鏈上負責驗證，鏈下負責計算與生成，分工清晰，既確保 DSSC 身份的安全性，也保留藝術創作的自由。

這張圖將目前流程與包含向量空間保存 (VSP) 的理想化設計進行了比較。左側實現了可重複性：每個 DSSC 都對應到潛在空間中的穩定位置，從而允許身份驗證，但無法在單元之間建立有意義的關係。右側，VSP 確保潛在空間中的成對距離反映了光伏特徵的差異，不僅提供了可重複性，還提供了關係意義。從這個角度來看，預言機從驗證真實性的守門人演變為揭示能量曲線在共享語義結構中如何關聯的「占卜機器」。

幻覺的聲音化：在原型中落實理論的一種有趣策略

前面提到的生成系統中的大腦預測理論，提供了一個有趣且簡單的作曲策略是：將「幻覺」作為聲音原則。一個假想的製造步驟：使用DSSC I–V序列訓練RAVE。每次新量測會產生一個潛在嵌入z1。將z1經過編碼器–解碼器循環，得到重建嵌入z2。計算殘差向量r = z1 – z2。這個殘差r正好代表模型無法解釋的部分。z1捕捉了DSSC可再現的聲紋，r則可以被假設為「幻覺」：模型無法同化的偏差、噪音或異常。將r輸入到另一個RAVE解碼器就可以將幻覺聲音化：能量曲線不再只是被聲音化，認知上的失誤被轉換為聲音，幻覺不再被視為錯誤，而是生成的剩餘，模糊了感知與想像的界線。

  [I–V 曲線]
       │
       ▼
  編碼器 → z1
       │
       ▼
  解碼器 → z2
       │
       ▼
  殘差 r = z1 - z2
       │
       ▼
  第二解碼器 → 幻覺之聲

智慧合約實作

Solar Oracle Walkman 專案包含一個基於區塊鏈的智慧合約，用於驗證並永久儲存來自以太坊網路上手工製作的 DSSC 的 IV 聲紋資料。該合約部署在 Sepolia 測試網的地址 0xeF19a90e5786dd0e89264F38f52CF81102db938e 上，充當去中心化的數字公證人，通過高級安全驗證規則、EIP-712 簽名和全面的數據完整性檢查來驗證 IV 特性測量的真實性。這個不可變的系統確保每個 DSSC 獨特的電子指紋都能透過加密方式驗證並永久存儲，從而創建設備性能特徵的防篡改記錄。

討論

目前的狀態 神諭隨身聽作為一件簡單的藝術雕塑，能即時將 DSSC 的 I–V 曲線聲音化。經過正規化後，七個特徵的聲紋在光照變化下依然穩定。映射設計刻意保持極簡，使得可重現性的評估變得直接明瞭。在 Max/MSP 中已經建立了一條從感測到聲音的受控流程。感知與人工智慧被視為同一生成機制的兩個面向。此處「幻覺」的工作定義是：生成過程漂移到可接受證據與先驗之外。大腦會進行預測與修正；幻覺則是預測失配的極端情況。oracle 提供了外部錨點，使生成保持在可驗證的範圍內，同時保留創造性變異的空間。
理論目前的作用 Stinson 的「通用機制觀」激發我們將 DSSC–RAVE 與人類感知視為同一生成架構的不同實現。Feigl 的「對應模型」則驅動我們設計從觀測到潛在變數的明確橋接，讓每一個設計步驟都能追溯至可測痕跡。這些理論視角本身不是最終目標，而是資料集建立的設計指南映射的先驗假設偏移與變異的評估指標目前的限制在於缺乏向量空間保存 (VSP)；沒有 VSP，潛在空間只能作為身份的穩定註冊，卻無法保證不同電池之間的關聯意義。因此，oracle 主要只是一個驗證真偽的守門人，卻提供不了太多語意解釋。然而，若能引入 VSP，oracle 則可能演化成為一台真正的「神諭機」：不僅能驗證真實，還能揭示不同能量曲線之間的關係，將物理差異轉譯為另一領域中可解釋的結構。
下一步 建立一個小而乾淨的 DSSC 聲紋訓練集，控制光照與溫度，並測試單調性與局部平滑性的先驗條件。原型化 vec2vec 式的約束：簡單的循環檢查與距離保持，並在保留測試集中記錄當「聲音鄰域」無法對應「能量曲線鄰域」的情況。研究輕量化推論目標與壓縮方法，以便未來能應用於行動裝置。探索能否將可追溯的能源紀錄註冊為來自聲紋的可驗證雜湊，並評估失效模式與防偽極限。「oracle」不僅指區塊鏈上的鏈外數據橋接機制，也回應了其古代語源——神廟的「神諭」或「占卜」。當 DSSC 聲紋僅用於驗證時，oracle 只是守門人；但當其承載語意結構，能揭示不同能量曲線之間的關聯並轉譯至聲音領域時，它就超越了驗證，開始運作如同一部「占卜機」，將物理世界的跡象轉換為另一個世界的訊息。

參考

Buckner, Cameron J. 2023. From Deep Learning to Rational Machines: What the History of Philosophy Can Teach Us about the Future of Artificial Intelligence. 1st ed. Oxford University PressNew York. https://doi.org/10.1093/oso/9780197653302.001.0001.
Stinson, Catherine. 2020. “From Implausible Artificial Neurons to Idealized Cognitive Models: Rebooting Philosophy of Artificial Intelligence.” Philosophy of Science 87 (4): 590–611. https://doi.org/10.1086/709730.
Jha, Rishi, Collin Zhang, Vitaly Shmatikov, and John X. Morris. 2025. “Harnessing the Universal Geometry of Embeddings.” arXiv:2505.12540. Preprint, arXiv, June 25. https://doi.org/10.48550/arXiv.2505.12540.
https://www.hackteria.org/wiki/A_RAVE_and_starvation_synth_based_generative_sonic_device_powered_by_dye_sensitized_solar_cell
https://github.com/shihweichieh2023/IVcurve_tester
https://github.com/rjha18/vec2vec
https://github.com/shihweichieh2023/solar-oracle-walkman

@@ Line 158: / Line 158: @@
 == 幻覺的聲音化：在原型中落實理論的一種有趣策略 ==
-基於生成系統中的 大腦預測理論，一個有趣且簡單的作曲策略是：將「幻覺」作為聲音原則。
+前面提到的生成系統中的大腦預測理論，提供了一個有趣且簡單的作曲策略是：將「幻覺」作為聲音原則。一個假想的製造步驟：使用DSSC I–V序列訓練RAVE。每次新量測會產生一個潛在嵌入z1。將z1經過編碼器–解碼器循環，得到重建嵌入z2。計算殘差向量r = z1 – z2。這個殘差r正好代表模型無法解釋的部分。z1捕捉了DSSC可再現的聲紋，r則可以被假設為「幻覺」：模型無法同化的偏差、噪音或異常。將r輸入到另一個RAVE解碼器就可以將幻覺聲音化：能量曲線不再只是被聲音化，認知上的失誤被轉換為聲音，幻覺不再被視為錯誤，而是生成的剩餘，模糊了感知與想像的界線。
-步驟：
-使用 DSSC I–V 序列訓練 RAVE。
-每次新量測會產生一個潛在嵌入 z1。
-將 z1 經過編碼器–解碼器循環，得到重建嵌入 z2。
-計算殘差向量 r = z1 – z2。
-這個殘差 r 正好代表模型無法解釋的部分。
-z1 捕捉了電池可再現的聲紋
-r 則化為「幻覺」：模型無法同化的偏差、噪音或異常
-若將 r 輸入到另一個 RAVE 解碼器，輸出就是「幻覺之聲」：
-能量曲線不再只是被聲音化
-認知上的失誤被轉換為聲音
-幻覺不再被視為錯誤，而是生成的剩餘，模糊了感知與想像的界線
     [I–V 曲線]
          │

太陽能神諭隨身聽: Difference between revisions

Revision as of 17:23, 2 September 2025

Contents

摘要

生成系統中感知進展的聲音化

實驗

第一個原型：7-D聲紋和模糊提取I-V曲線

RAVE 作為可信神諭空間與生成音樂引擎的介質

幻覺的聲音化：在原型中落實理論的一種有趣策略

智慧合約實作

討論

參考

Navigation menu

太陽能神諭隨身聽: Difference between revisions

Revision as of 17:23, 2 September 2025

摘要

生成系統中感知進展的聲音化

實驗

第一個原型：7-D聲紋和模糊提取I-V曲線

RAVE 作為可信神諭空間與生成音樂引擎的介質

幻覺的聲音化：在原型中落實理論的一種有趣策略

智慧合約實作

討論

參考

Navigation menu

Search