## Darstellung von Zahlen

### Summe von Potenzen einer Basis

$x = c_0 \cdot b^0 + c_1 \cdot b^1 + \dots + c_n \cdot b^n$

-----

Beispiele: $128$ und $11,57$

$128_{10} = 1 \cdot 10^2 + 2 \cdot 10^1 + 8 \cdot 10^0$ 

>$= 1 \cdot 2^7 + 0 \cdot 2^6 + \ldots + 0 \cdot 2^0$

$11,57_{10} = 1 \cdot 10^1 + 1 \cdot 10^0 + 5 \cdot 10^{-1} + 7 \cdot 10^{-2}$

>$= 1 \cdot 2^3 + 0 \cdot 2^2 + 1 \cdot 2^1 + 1 \cdot 2^0 + 1 \cdot 2^{-1} +...$

>$=8 + 0 + 2 + 1 + 0.5 + \ldots$

### Zahlen in Python

Python numeric built-in types: 
* int
* float
* complex

https://docs.python.org/3.4/library/stdtypes.html#numeric-types-int-float-complex

NumPy: 
* int \<x>
* uint \<x>
* float \<x>
* complex \<x>

https://numpy.org/devdocs/user/basics.types.html


In [1]:
import numpy as np
numbers = [14, 2.3792, 3+7j, 
 np.int32(-11), np.uint32(5), np.float64(8.23)]
for num in numbers:
 print("{:10}:\t{}".format(num, type(num)))

 14:	<class 'int'>
 2.3792:	<class 'float'>
 (3+7j):	<class 'complex'>
 -11:	<class 'numpy.int32'>
 5:	<class 'numpy.uint32'>
 8.23:	<class 'numpy.float64'>


### Beispiele 

* $\sqrt{2} \cdot \sqrt{2} \stackrel{?}{=} 2$

* $\sin(\pi) \stackrel{?}{=} 0$



In [2]:
x = np.sqrt(2)
print(x*x == 2)

False


In [3]:
print("x = {}".format(x))
print("x*x = {}".format(x*x))

x = 1.4142135623730951
x*x = 2.0000000000000004


In [4]:
y = np.sin(np.pi)
print(y == 0)

False


In [5]:
print("y = {}".format(y))
print(np.isclose(y,0))

y = 1.2246467991473532e-16
True


## Gleitkommazahlen


### Motivation

Festkommazahl: $x = \pm m_1 m_2 \dots m_n \cdot 10^e$ für feste $n$ und $e$

z.B. mit $n = 3$ und $e = -2$

* $0,01 = 1 \cdot 10^{-2}$
* $3,47 = 347 \cdot 10^{-2}$
* $9,99 = 999 \cdot 10^{-2}$

Darstellbare Zahlen haben gleichen Abstand aber Zahlenbereich eingeschränkt auf [0,00 - 9,99].

Gleitkommazahl: $x = \pm m_1, m_2 \dots m_n \cdot 10^e$ für feste $n$ und "beliebige" $e$

* $0,001 = 1 \cdot 10^{-3}$
* $0,105 = 105 \cdot 10^{-3}$
* $3,47 = 347 \cdot 10^{-2}$
* $105.000 = 105 \cdot 10^{3}$

Praktisch uneingeschränkter Zahlenbereich... Abstand zwischen darstellbaren Zahlen aber __nicht__ gleich. 

z.B. $106.000 - 105.000 = 1.000 \neq 0,001 = 0,106 - 0,105$

Kompromiss zwischen Umfang und Genauigkeit. 


<img src="imgs/GKZ_Strahl.png">

### Definition

$\hat{x} = \pm m_1, m_2 \dots m_n \times b^{e_1\dots e_k} \in \mathbb{G}(b, n)$



IEEE 754 bestimmt $b$, $n$ und $k$:

* 32bit float: 1bit Vorzeichen, 8bit Exponent (k), 23bit Mantisse (n).
* 64bit float: 1bit Vorzeichen, 11bit Exponent (k), 52bit Mantisse (n).
* Basis ist typischerweise 2. 

In [6]:
# Smallest and largest fp number
print(np.finfo(np.float32).min, np.finfo(np.float32).max)
print(np.finfo(np.float64).min, np.finfo(np.float64).max)

-3.4028235e+38 3.4028235e+38
-1.7976931348623157e+308 1.7976931348623157e+308


In [7]:
# Absolute smallest fp number
print(np.finfo(np.float32).tiny)
print(np.finfo(np.float64).tiny)

1.1754944e-38
2.2250738585072014e-308


In [8]:
x = 2**23
y = np.float32(x+3)
print(x+3)
print(y)

8388611
8388611.0


$G: \mathbb{R} \rightarrow \mathbb{G}: rd(x) = \hat{x}$

$E_{rd}(x) = \left|x - \hat{x}\right| = \left|x-rd(x)\right|$}

Im Allgemeinen wird zum nächsten Wert gerundet. Der Fehler ist also maximal, wenn $x$ in der Mitte zweier benachbarten Gleitkommazahlen liegt. 

<img src="imgs/G_fkt.jpg">

### Abstand zwischen zwei Gleitkommazahlen

$m_1, m_2 \dots m_n + 1 \times b^e - m_1, m_2 \dots m_n \times b^e = 0, 0 \dots 1 \times b^e$

> $\Delta\mathbb{G} = 1,0 \dots 0 \times b^{e - (n-1)}$

Der Abstand ist nicht konstant, sondern abhängig von der Größe der Zahlen. Dies ist beabsichtigt, damit der relative Fehler konstant bleibt.

<img src="imgs/Exakt_darstellbare_Gleitkommazahlen.png">

### Absoluter vs. relativer Fehler

Absoluter Fehler: $E_a = |x_a - x|$ 

z.B. 

* $1 + 1 = 3,\quad E_a = \left| 3 - 2 \right| = 1$


* $10000 + 10000 = 200001,\quad E_a = \left|20001 - 20000\right| = 1$
 


Relativer Fehler: $E_r = \frac{E_a}{|x|} = \frac{|x_a - x|}{|x|}$

$E_r = \frac{| 3 - 2 |}{2} = 0,5, \quad E_r = \frac{|20001 - 20000|}{20000} = 0,000005$



Relativer Fehler zwischen zwei benachbarten Gleitkommazahlen.

z. B. 

$E_r = \frac{|106.000-105.500|}{105.500} = \frac{500}{105.000} =~ 0,0048$

$E_r = \frac{|0,106 - 0,1055|}{0,1055} = \frac{0,0005}{0,1055} =~ 0,0047$

## Maschinengenauigkeit

* maximaler relativer Approximationsfehler bei Verwendung der Gleitkommazahlen $\mathbb{G}(b,n_m)$ 

 $$\epsilon = \underset{x \in \mathbb{Q}^+}{\text{max}} \frac{x-G(x)}{x} \leq \frac{b^{e-n_m+1}}{b^e} = b^{-n_m+1}$$
 
* alternative Definition 

$$\epsilon = \underset{x \in \mathbb{Q}}{\text{arg min}} \ G(1+x) > 1$$

* Maschinengenauigkeit: $\epsilon = b^{-n_m+1}$ 
 - Basis
 - Mantissenlänge 

## Genauigkeit bei Elementaroperationen

* Gleitkommazahlen $\mathbb{G}$ gegenüber $ \ +, \ $ $ -, \ $ $\cdot, \ $ $ / \ $ **nicht abgeschlossen**



$$ x \ast y \neq G(x \ast y) \neq G(x) \ast G(y) \neq G(G(x) \ast G(y))$$


* $G(G(x) \ast G(y))$ entspricht dem, was Computer berechnet


* Relativer Fehler für $ \ +, \ $ $\cdot, \ $ $/, \ $ in Größenordnung von Maschinengenauigkeit $\epsilon$

* Relativer Fehler für $ \ - \ $ unbegrenzt

## Auslöschung...
* ... führender Stellen, Darstellung des Ergebnisses nur mit kleinem Teil der Mantisse


* Bei Subtraktion kann **relativer Fehler beliebig groß** werden


* Tritt auf bei Bildung der **Differenz zweier ähnlich großer Zahlen** 

**Achtung:** auch Addition einer positiven und einer negativen Zahl