# ------------------------------------------------------------
# 2. Import libraries and data path
# ------------------------------------------------------------

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm
from IPython.display import display


DATA_FILE = "paediatrics_train.csv"

# ------------------------------------------------------------
# 3.1 Load and inspect data
# ------------------------------------------------------------

df = pd.read_csv(DATA_FILE, parse_dates=["date"], index_col="date")
df = df.asfreq("D")

print(df.head(), "\n")
print(df.info())

            paed_ed_attends
date                       
2014-04-01               47
2014-04-02               46
2014-04-03               47
2014-04-04               48
2014-04-05               52 

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1056 entries, 2014-04-01 to 2017-02-19
Freq: D
Data columns (total 1 columns):
 #   Column           Non-Null Count  Dtype
---  ------           --------------  -----
 0   paed_ed_attends  1056 non-null   int64
dtypes: int64(1)
memory usage: 16.5 KB
None

# ------------------------------------------------------------
# 3.2 Data Quality Checks
# ------------------------------------------------------------

# Missing values
missing_values = df.isna().sum()

# Duplicate dates
duplicate_dates = df.index.duplicated().sum()

# Check for continuous daily frequency
full_date_range = pd.date_range(
    start=df.index.min(), end=df.index.max(), freq="D"
)
missing_dates = full_date_range.difference(df.index)

# Validity of attendance counts
negative_counts = (df["paed_ed_attends"] < 0).sum()
non_integer_counts = (df["paed_ed_attends"] % 1 != 0).sum()

# Display results
print("Missing values per column:")
print(missing_values, "\n")

print(f"Number of duplicate dates: {duplicate_dates}")
print(f"Number of missing dates in daily sequence: {len(missing_dates)}")
print(f"Negative attendance values: {negative_counts}")
print(f"Non-integer attendance values: {non_integer_counts}")

Missing values per column:
paed_ed_attends    0
dtype: int64 

Number of duplicate dates: 0
Number of missing dates in daily sequence: 0
Negative attendance values: 0
Non-integer attendance values: 0

# ------------------------------------------------------------
# 3.3.1 Visualise the data
# ------------------------------------------------------------

# Split into train and test sets
Horizon = 28
train = df.iloc[:-Horizon]
test = df.iloc[-Horizon:]

# Line plot of training data only
plt.figure(figsize=(12, 4))
plt.plot(train.index, train["paed_ed_attends"])
plt.xlabel("Date")
plt.ylabel("Daily paediatric ED attendances")
plt.title("Daily paediatric ED attendances over time (training data only)")
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 3.4.1 Visualise seasonality by calendar month
# ------------------------------------------------------------

# Add month information to training data
train_month = train.copy()
train_month["month"] = train_month.index.month
train_month["month_name"] = train_month.index.month_name()

# Calculate mean daily attendances per calendar month
monthly_mean = (
    train_month.groupby(["month", "month_name"])["paed_ed_attends"]
    .mean()
    .reset_index()
    .sort_values("month")
)

# Plot mean daily attendances by month
plt.figure(figsize=(8, 4))
plt.plot(
    monthly_mean["month_name"], monthly_mean["paed_ed_attends"], marker="o"
)
plt.xlabel("Month")
plt.ylabel("Mean daily attendances")
plt.title("Mean daily paediatric ED attendances by month (training data)")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 3.5.1 Visualise seasonality by day of week
# ------------------------------------------------------------

# Add day-of-week to training data
train_dayofweek = train.copy()
train_dayofweek["day_name"] = train_dayofweek.index.day_name()

# Order for days of the week
weekday_order = [
    "Monday",
    "Tuesday",
    "Wednesday",
    "Thursday",
    "Friday",
    "Saturday",
    "Sunday",
]

train_dayofweek["day_name"] = pd.Categorical(
    train_dayofweek["day_name"], categories=weekday_order, ordered=True
)


# Boxplot by day of week
plt.figure(figsize=(8, 4))
train_dayofweek.boxplot(
    column="paed_ed_attends", by="day_name", grid=False, showfliers=False
)
plt.suptitle("")
plt.title("Paediatric ED attendances by day of week (training data)")
plt.xlabel("Day of week")
plt.ylabel("Daily attendances")
plt.tight_layout()
plt.show()

<Figure size 800x400 with 0 Axes>

# ------------------------------------------------------------
# 3.6.1 Visualise distribution of daily attendances
# ------------------------------------------------------------

# Histogram of daily attendances (distribution)
plt.figure(figsize=(8, 4))
plt.hist(train["paed_ed_attends"], bins=30)
plt.xlabel("Daily attendances")
plt.ylabel("Frequency")
plt.title("Distribution of daily paediatric ED attendances (training data)")
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 3.6.2 Visualise rolling mean and variability
# ------------------------------------------------------------

# Rolling mean and variability of daily attendances (line plot)
rolling_mean = train["paed_ed_attends"].rolling(30).mean()
rolling_std = train["paed_ed_attends"].rolling(30).std()

plt.figure(figsize=(12, 4))
plt.plot(rolling_mean, label="30-day rolling mean")
plt.plot(rolling_std, label="30-day rolling std")
plt.legend()
plt.title("Rolling mean and variability (training data)")
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 4.2 Train–Test split (hold out final 28 days)
# ------------------------------------------------------------

H = 28  # forecast horizon in days

# Split by time
train = df.iloc[:-H].copy()
test = df.iloc[-H:].copy()

# Print summary
print(f"Total observations: {len(df)}")
print(f"Training observations: {len(train)}")
print(f"Test observations: {len(test)}")

print("\nTraining period:")
print(f"  {train.index.min().date()} to {train.index.max().date()}")

print("\nTest period (held out):")
print(f"  {test.index.min().date()} to {test.index.max().date()}")

Total observations: 1056
Training observations: 1028
Test observations: 28

Training period:
  2014-04-01 to 2017-01-22

Test period (held out):
  2017-01-23 to 2017-02-19

# ------------------------------------------------------------
# 4.3 Rolling origin cross-validation (expanding window)
# ------------------------------------------------------------


def mae(y_true: np.ndarray, y_pred: np.ndarray) -> float:
    y_true = np.asarray(y_true)
    y_pred = np.asarray(y_pred)
    return float(np.mean(np.abs(y_true - y_pred)))


def rolling_origin_cv(
    series: pd.Series,
    horizon: int = 28,
    initial_window: int = 365 * 2,
    step: int = 1,
    forecaster=None,
) -> pd.DataFrame:
    """
    Rolling origin CV with an expanding window.

    Parameters
    ----------
    series : pd.Series
        Time series indexed by date.
    horizon : int
        Forecast horizon (days).
    initial_window : int
        Number of initial observations used in the first training window.
    step : int
        How far to move the origin forward each iteration (eg 1 day or 7 days).
    forecaster : callable
        Function that takes (train_series, horizon) and returns a 1D array forecast of length = horizon.

    Returns
    -------
    pd.DataFrame
        Long-format results with one row per origin per horizon step.
    """
    if forecaster is None:
        raise ValueError(
            "You must pass a forecaster function: forecaster(train_series, horizon) -> forecast array"
        )

    series = series.dropna()
    n = len(series)

    # check that we have enough data for at least one origin
    if initial_window + horizon > n:
        raise ValueError(
            "initial_window + horizon is larger than the available series length."
        )

    results = []

    last_origin_start = n - horizon

    # loop through origins
    for origin_end in range(initial_window, last_origin_start + 1, step):
        train_series = series.iloc[:origin_end]
        test_slice = series.iloc[origin_end : origin_end + horizon]

        y_pred = np.asarray(forecaster(train_series, horizon), dtype=float)

        if len(y_pred) != horizon:
            raise ValueError(
                f"Forecaster returned length {len(y_pred)} but expected {horizon}."
            )

        y_true = test_slice.values.astype(float)

        abs_err = np.abs(y_true - y_pred)

        origin_date = test_slice.index[0]  # first day being forecast

        # store horizon-wise results (1..H)
        for h in range(1, horizon + 1):
            results.append(
                {
                    "origin_date": origin_date,
                    "h": h,
                    "y_true": y_true[h - 1],
                    "y_pred": y_pred[h - 1],
                    "abs_error": abs_err[h - 1],
                }
            )

    return pd.DataFrame(results)

# ------------------------------------------------------------
# 5.3 Benchmark forecasters
# ------------------------------------------------------------


def forecast_naive1(train_series: pd.Series, horizon: int) -> np.ndarray:
    """Naive (NF1): forecast all future days as the last observed value."""
    if len(train_series) == 0:
        raise ValueError("train_series is empty.")
    last_val = float(train_series.iloc[-1])
    return np.repeat(last_val, horizon)


def forecast_snaive_weekly(
    train_series: pd.Series, horizon: int
) -> np.ndarray:
    """Seasonal naive (weekly): repeat the last observed 7 days."""
    season_length = 7

    if len(train_series) == 0:
        raise ValueError("train_series is empty.")

    if len(train_series) < season_length:
        # fallback to naive1 if not enough history
        return forecast_naive1(train_series, horizon)

    last_week = train_series.iloc[-season_length:].to_numpy(dtype=float)
    reps = int(np.ceil(horizon / season_length))
    return np.tile(last_week, reps)[:horizon]

# ------------------------------------------------------------
# 5.4.1 Benchmark Model Evaluation (Rolling origin CV on training data)
# ------------------------------------------------------------
y_train = train["paed_ed_attends"]

cv_naive1 = rolling_origin_cv(
    series=y_train,
    horizon=H,
    initial_window=365 * 2,
    step=1,
    forecaster=forecast_naive1,
)

cv_snaive = rolling_origin_cv(
    series=y_train,
    horizon=H,
    initial_window=365 * 2,
    step=1,
    forecaster=forecast_snaive_weekly,
)

# Overall MAE across all origins and horizons
summary = pd.DataFrame(
    {
        "Model": ["Naive1 (last value)", "Seasonal Naive (weekly)"],
        "Mean MAE (h=1..28)": [
            cv_naive1["abs_error"].mean(),
            cv_snaive["abs_error"].mean(),
        ],
    }
).sort_values("Mean MAE (h=1..28)")

display(summary)

# ------------------------------------------------------------
# 5.4.2 visualise horizon-wise accuracy
# ------------------------------------------------------------

# Horizon-wise MAE
mae_by_h_naive1 = (
    cv_naive1.groupby("h")["abs_error"].mean().reset_index(name="MAE")
)
mae_by_h_snaive = (
    cv_snaive.groupby("h")["abs_error"].mean().reset_index(name="MAE")
)

# Plot horizon-wise MAE
plt.figure(figsize=(8, 4))
plt.plot(mae_by_h_naive1["h"], mae_by_h_naive1["MAE"], label="Naive1")
plt.plot(
    mae_by_h_snaive["h"],
    mae_by_h_snaive["MAE"],
    label="Seasonal Naive (weekly)",
)
plt.xlabel("Forecast lead time (days ahead)")
plt.ylabel("MAE")
plt.title("Benchmark accuracy by forecast horizon")
plt.legend()
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 6.2.1 SARIMAX specification and fitting (statsmodels)
# ------------------------------------------------------------

y_train = train["paed_ed_attends"].astype(float)

m = 7  # weekly seasonality for daily data

# Small grid so runtime is manageable here
p_values = [0, 1, 2]
d_values = [0, 1]
q_values = [0, 1, 2]

P_values = [0, 1]
D_values = [0, 1]
Q_values = [0, 1]

results = []

# Grid search over specified parameter ranges
for p in p_values:
    for d in d_values:
        for q in q_values:
            for P in P_values:
                for D in D_values:
                    for Q in Q_values:
                        order = (p, d, q)
                        seasonal_order = (P, D, Q, m)
                        try:
                            model = sm.tsa.statespace.SARIMAX(
                                y_train,
                                order=order,
                                seasonal_order=seasonal_order,
                                enforce_stationarity=False,
                                enforce_invertibility=False,
                            )
                            fit = model.fit(
                                disp=False, method="lbfgs", maxiter=200
                            )

                            results.append(
                                {
                                    "order": order,
                                    "seasonal_order": seasonal_order,
                                    "aic": fit.aic,
                                }
                            )
                        except Exception:
                            # ignore faiures to converge or other issues
                            continue

grid_df = pd.DataFrame(results).sort_values("aic").reset_index(drop=True)
display(grid_df.head(10))

best_order = tuple(grid_df.loc[0, "order"])
best_seasonal_order = tuple(grid_df.loc[0, "seasonal_order"])

print("Selected order:", best_order)
print("Selected seasonal_order:", best_seasonal_order)
print("Best AIC:", round(grid_df.loc[0, "aic"], 2))

/opt/miniconda3/envs/hds_forecast/lib/python3.11/site-packages/statsmodels/base/model.py:607: ConvergenceWarning: Maximum Likelihood optimization failed to converge. Check mle_retvals
  warnings.warn("Maximum Likelihood optimization failed to "

Selected order: (1, 0, 2)
Selected seasonal_order: (0, 1, 1, 7)
Best AIC: 7061.82

# ------------------------------------------------------------
# 6.2.2 Define SARIMAX forecaster using selected specification
# ------------------------------------------------------------


def forecast_sarimax_fixed(
    train_series: pd.Series, horizon: int
) -> np.ndarray:
    """
    Fit SARIMAX(best_order, best_seasonal_order) to train_series and return a horizon-step forecast.
    Designed to be passed into rolling_origin_cv().
    """
    train_series = train_series.astype(float)

    # Fit SARIMAX with the best parameters found in the grid search
    model = sm.tsa.statespace.SARIMAX(
        train_series,
        order=best_order,
        seasonal_order=best_seasonal_order,
        enforce_stationarity=False,
        enforce_invertibility=False,
    )
    fit = model.fit(disp=False, method="lbfgs", maxiter=200)
    fc = fit.forecast(steps=horizon)
    return np.asarray(fc, dtype=float)

# ------------------------------------------------------------
# 6.3 Cross-validation results (SARIMAX)
# ------------------------------------------------------------
y_train = train["paed_ed_attends"].astype(float)

STEP = 7

# Run rolling origin CV for SARIMAX forecaster
cv_sarimax = rolling_origin_cv(
    series=y_train,
    horizon=H,
    initial_window=365 * 2,
    step=STEP,
    forecaster=forecast_sarimax_fixed,
)

# Overall MAE across all origins and horizons
mae_by_h_sarimax = (
    cv_sarimax.groupby("h")["abs_error"]
    .mean()
    .reset_index(name="MAE")
    .sort_values("h")
)

# comparison with naive1 benchmark
plt.figure(figsize=(8, 4))
plt.plot(mae_by_h_naive1["h"], mae_by_h_naive1["MAE"], label="Naive")
plt.plot(mae_by_h_sarimax["h"], mae_by_h_sarimax["MAE"], label="SARIMAX")
plt.xlabel("Forecast lead time (days ahead)")
plt.ylabel("MAE")
plt.title("Forecast accuracy by lead time: SARIMAX vs benchmark")
plt.legend()
plt.tight_layout()
plt.show()

# ------------------------------------------------------------
# 7.2 Cross-validation results (SARIMAX)
# ------------------------------------------------------------

final_model = sm.tsa.statespace.SARIMAX(
    y_train,
    order=best_order,
    seasonal_order=best_seasonal_order,
    enforce_stationarity=False,
    enforce_invertibility=False,
)

final_fit = final_model.fit(disp=False)

forecast_28 = final_fit.get_forecast(steps=28)
forecast_mean = forecast_28.predicted_mean
forecast_ci = forecast_28.conf_int()

plt.figure(figsize=(10, 4))
plt.plot(
    train.index[-90:],
    train["paed_ed_attends"].iloc[-90:],
    label="Recent observed",
)
plt.plot(forecast_mean.index, forecast_mean, label="28-day forecast")

plt.fill_between(
    forecast_ci.index,
    forecast_ci.iloc[:, 0],
    forecast_ci.iloc[:, 1],
    color="grey",
    alpha=0.3,
    label="Prediction interval",
)

plt.xlabel("Date")
plt.ylabel("Daily paediatric ED attendances")
plt.title("28-day forecast of paediatric ED attendances")
plt.legend()
plt.tight_layout()
plt.show()

	order	seasonal_order	aic
0	(1, 0, 2)	(0, 1, 1, 7)	7061.818015
1	(1, 0, 2)	(1, 1, 1, 7)	7063.669564
2	(2, 0, 2)	(0, 1, 1, 7)	7063.692143
3	(2, 0, 2)	(1, 1, 1, 7)	7065.451773
4	(2, 0, 1)	(0, 1, 1, 7)	7067.767247
5	(1, 0, 1)	(0, 1, 1, 7)	7069.371915
6	(2, 0, 1)	(1, 1, 1, 7)	7069.662216
7	(2, 1, 2)	(0, 1, 1, 7)	7070.421185
8	(1, 0, 1)	(1, 1, 1, 7)	7071.257823
9	(2, 1, 2)	(1, 1, 1, 7)	7072.391947

Forecasting Paediatric Emergency Department Attendances¶

Executive Summary¶

1.1 Introduction¶

1.2 Objectives¶

2 Setup¶

3. Data Description and Initial Analysis¶

3.2 Data Quality Checks¶

3.3 Overview of Time Series Behaviour¶

3.4 Seasonal effects¶

3.5 Short term effects¶

3.6 Distribution and variability¶

3.7 Implications for Forecasting¶

4. Forecasting Framework¶

4.1 Forecasting Task Definition¶

4.2 Train–Test Split¶

4.3 Cross-Validation Strategy¶

5. Benchmark Models (Naïve Methods)¶

5.1 Rationale for Benchmark Models¶

5.2 Benchmark Model Definitions¶

Naïve (Last Observation) Forecast¶

Seasonal Naïve (Weekly) Forecast¶

5.3 Benchmark Model Implementation¶

5.4 Benchmark Model Evaluation¶

6. Candidate Forecasting Model¶

6.1 Choice of model¶

6.2 Model Specification and Fitting¶

6.3 Cross-Validation Results¶

7. Model Selection and Final Forecast¶

7.1 Model Selection¶

7.2 Final 28 day Forecast¶

8. Conclusion¶

	Model	Mean MAE (h=1..28)
0	Naive1 (last value)	9.308777
1	Seasonal Naive (weekly)	9.329863